关键词:信息抽取 URL采集 数据清洗
1007-9416(2014)04-0138-01
1 引言
随着Web2.0的兴起与普及,互联网上散落着大量的有用信息,如由普通网动发布的自己身边的奇闻趣事、个人的博客文章、电子商务网站上网民购写产品后的产品评论、个人社交圈的发帖、主题论坛评论等,尤其是产品评论信息,在线评论蕴含着丰富的产品意见信息,不仅能够影响消费者购写商品的倾向,更影响了产品的销量。因而,对这些观点和评论进行分析,不仅能够帮助企业改善产品、提高质量,及时修复潜在可能恶化的客户关系,而且也能够帮助消费者做出正确的购写决策,因而就有非常重要的作用。
2 相关工作
为了更好的研究网页信息抽取技术,本文对目前已有的信息抽取技术进行了总结,根据抽取技术和依据理论的不同,信息抽取技术主要有:基于自然语言的信息抽取,基于包装归纳的信息抽取、基于Web查询的信息抽取、基于Html剖析的信息抽取。3 关键算法实现”初始化Parse对象;(2)通过创建特定的过滤器,过滤所有的目标签;(3)取出目标标签中文本,也就是下一页的url;(4)然后通过URL作为参数,得到评论文本页面,对评论页面进行网页文本剖析;(5)剖析后的文本,提取出目标评论数据;(6)对目标评论数据进行去噪处理;(7)将清洗后的数据保存到数据库中。
3.2 实验结果
京东()是国内电子最受欢迎的电子产品商务网站之一,京东商城商品大约分为11类,数万个品牌,百万种商品,日订单处理量超过30万单,2013年4月23日,京东正式对外宣布其注册用户数突破1亿。因此笔者以京东网站上数码相机销售排行榜中用户评论数量最多的索尼(SONY) DSC-RX100 M2 黑卡数码相机的评论数据(http://club.jd.com/review/676676-1-1-0.html)为数据来源为例进行网页评论文本提取。4 结语
在各个行业信息化发展的同时,人们对信息检索的完备、准确、快捷会有更严格的要求和期望。伴随着Internet规模的急剧扩大,社会网络化、信息化程度的日益提高,网上信息呈指数极剧增长,人们在进行信息查询时,不仅希望能够查询出所有感兴趣的信息,过滤掉无关的信息,同时希望获得最有参考价值的信息,以最快的速度解决理由。
参考文献
[1]杨源,马云龙,林鸿飞.评论挖掘中产品属性归类理由研究[J].中文信息学报,2012年3期.
[2]贾春亮,朱艳辉,徐业强.中文产品评论中属性词抽取策略研究[J].计算机工程,2011,37(12):26-28.
[3]Somasundaran S, Ruppenhofer J, Wiebe J. Detecting Arguing and Sentiment in Meetings[C].In: Proceedings of Workshop on D is2 course and Dialogue(S IGdial’2007), Antwerp,Belgium,September 2007:311-319.