电子商务中产品评论信息提取算法

摘要:随着越来越多门户网站、电子商务网站不断涌现,很多消费者选择网上购物的方式满足需求。由于很多电子商务网站都设定的是只有购写的消费者才能发表产品评论,因此产品评论信息具有的研究价值。本文通过对电子商务网站结果的分析,研究了针对在线评论的产品属性挖掘算法,通过实验结果分析,表现了算法的有效性。
关键词:信息抽取 URL采集 数据清洗
1007-9416(2014)04-0138-01
1 引言
随着Web2.0的兴起与普及,互联网上散落着大量的有用信息,如由普通网动发布的自己身边的奇闻趣事、个人的博客文章、电子商务网站上网民购写产品后的产品评论、个人社交圈的发帖、主题论坛评论等,尤其是产品评论信息,在线评论蕴含着丰富的产品意见信息,不仅能够影响消费者购写商品的倾向,更影响了产品的销量。因而,对这些观点和评论进行分析,不仅能够帮助企业改善产品、提高质量,及时修复潜在可能恶化的客户关系,而且也能够帮助消费者做出正确的购写决策,因而就有非常重要的作用。

2 相关工作

为了更好的研究网页信息抽取技术,本文对目前已有的信息抽取技术进行了总结,根据抽取技术和依据理论的不同,信息抽取技术主要有:基于自然语言的信息抽取,基于包装归纳的信息抽取、基于Web查询的信息抽取、基于Html剖析的信息抽取。
3 关键算法实现”初始化Parse对象;(2)通过创建特定的过滤器,过滤所有的目标签;(3)取出目标标签中文本,也就是下一页的url;(4)然后通过URL作为参数,得到评论文本页面,对评论页面进行网页文本剖析;(5)剖析后的文本,提取出目标评论数据;(6)对目标评论数据进行去噪处理;(7)将清洗后的数据保存到数据库中。

3.2 实验结果

京东()是国内电子最受欢迎的电子产品商务网站之一,京东商城商品大约分为11类,数万个品牌,百万种商品,日订单处理量超过30万单,2013年4月23日,京东正式对外宣布其注册用户数突破1亿。因此笔者以京东网站上数码相机销售排行榜中用户评论数量最多的索尼(SONY) DSC-RX100 M2 黑卡数码相机的评论数据(http://club.jd.com/review/676676-1-1-0.html)为数据来源为例进行网页评论文本提取。
4 结语
在各个行业信息化发展的同时,人们对信息检索的完备、准确、快捷会有更严格的要求和期望。伴随着Internet规模的急剧扩大,社会网络化、信息化程度的日益提高,网上信息呈指数极剧增长,人们在进行信息查询时,不仅希望能够查询出所有感兴趣的信息,过滤掉无关的信息,同时希望获得最有参考价值的信息,以最快的速度解决理由。
参考文献
[1]杨源,马云龙,林鸿飞.评论挖掘中产品属性归类理由研究[J].中文信息学报,2012年3期.
[2]贾春亮,朱艳辉,徐业强.中文产品评论中属性词抽取策略研究[J].计算机工程,2011,37(12):26-28.
[3]Somasundaran S, Ruppenhofer J, Wiebe J. Detecting Arguing and Sentiment in Meetings[C].In: Proceedings of Workshop on D is2 course and Dialogue(S IGdial’2007), Antwerp,Belgium,September 2007:311-319.

相关论文

管理工具,电子商务企业产品结构

:21世纪是个充满变化(change)、挑战(challenge)和机遇(chance)的3C,在愈发激烈的市场竞争中,企业的竞争力和适应性企业家和学者们备受的话。
浏览量:95075 点赞量:21104

电子商务环境下物流信息系统

物流作为企业的“第三利润源泉”,已广泛被企业接受和重视。而物流信息系统作为区别现代物流与传统物流的重要标志,被喻为物流系统的神经系统。
浏览量:82717 点赞量:18430

电子商务环境下物流信息系统

物流作为企业的“第三利润源泉”,已广泛被企业接受和重视。而物流信息系统作为区别现代物流与传统物流的重要标志,被喻为物流系统的神经系统。
浏览量:118648 点赞量:25771

基于电子商务第三方物流配送信息系统

电子商务和物流是信息技术飞速发展的结果,特别是近几年,电子商务好像雨后春笋般的快速发展。一方面,电子商务的普及在一定程度上推动了网。
浏览量:13181 点赞量:4758

基于电子商务施工企业物流信息系统

二十一世纪以来,竞争全球化的浪潮势不可挡,我国施工企业面临来自全球各施工企业激烈竞争的严峻挑战。电子商务作为21世纪最具竞争力的商务模。
浏览量:132336 点赞量:28858