[发明专利]网络评论数据的特征信息采集方法和装置在审

专利信息
申请号: 201510563709.7 申请日: 2015-09-07
公开(公告)号: CN105183847A 公开(公告)日: 2015-12-23
发明(设计)人: 黄运杜;陈海勇 申请(专利权)人: 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京德琦知识产权代理有限公司 11018 代理人: 张晓峰;宋志强
地址: 100080 北京市海淀区杏石口路6*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网络 评论 数据 特征 信息 采集 方法 装置
【说明书】:

技术领域

本申请涉及网络数据处理领域,尤其涉及一种网络评论数据的特征信息采集方法和装置。

背景技术

目前,随着互联网不断的普及,网络用户不断的增多,网民的评论观点越来越受到重视。小到对某件商品的评价,大到对国际形势的评论,或多或少都体现出一个网民自己的观点。而大量的观点汇聚起来,形成了舆情导向。若能准确快速的获得舆情,对个人、企业、公司,甚至是国家都有重要的意义。比如正火爆发展的O2O业务,连接线上线下,分析用户评论,使得线下公司可以及时获得用户反馈信息。而指数爆炸的网络信息,从根本上无法使用人工来分析评论观点,所以需要使用自动挖掘分析评论特征信息的方案。

现有技术中,对于如何自动挖掘分析评论观点的特征信息方案,通常为关联规则法。

所述关联规则法,通常有Apriori方法和FP-growth方法。

(1)Apriori方法是经典的挖掘布尔关联规则频繁项集的方法。图1为现有技术中Apriori方法的流程示意图;参见图1,Apriori方法的核心技术方案是通过设定最小支持度划定界线,大于等于最小支持度的项集设定为频繁项集。然后频繁项集之间结合,产生满足最小支持度和最小可信度的强关联规则。对以上得到的强关联规则,作为初始的频繁项集,继续结合获得更大的频繁项集。以此类推至不能再次获得更大的频繁项集为止。满足最小支持度和最小可信度的频繁项集就是最后挖掘出来的关联结果信息。比如如下表1购物车数据挖掘出来关联结果是啤酒和尿布,即客户购买啤酒时常常会购买尿布。显然这种现有技术的方法用在挖掘分析评论中,可以挖掘出客户类似“质量-好,屏幕-清晰”,这种评论观点的特征信息。

客户编号购物篮(项集)1面包,牛奶2面包,尿布,啤酒,鸡蛋3牛奶,尿布,啤酒,可乐4面包,牛奶,尿布,啤酒5面包,牛奶,尿布,可乐

表1

(2)FP-growth方法使用了数据结构-前缀树来挖掘关联规则,速度比较快,内存消耗比较少,也是一种很优秀的关联挖掘算法。

但是,现有技术存在以下缺点:

对于希望采集(或者也称之为挖掘)出结果项集较大的关联效果比较好。所述结果项集较大即结果有两项以上,如“面包,牛奶,尿布,可乐”有四项。而对于评论中只挖掘两项,如“属性-情感词”这种数据的特征信息来说,其准确性的效果退化,采集出来的特征信息不够准确。

在互联网快速发展的信息化时代,评论文本数以亿计。业界亟需一种准确的自动挖掘分析评论数据的技术方案,来采集客户、群众的评论数据的特征信息,反馈给公司企业,优化产品,提高产品和服务质量;还可以来分析网民的舆情导向。

发明内容

有鉴于此,本发明的主要目的是提供一种网络评论数据的特征信息采集方法和装置,以提高从评论数据采集出的特征信息的准确性。

本发明的技术方案是这样实现的:

一种网络评论数据的特征信息采集方法,包括:

获取原始的网络评论数据;

初始阶段,包括:遍历所述网络评论数据中的每一条评论,针对每条评论,查找其中的属性词和情感词,得到初始阶段所遍历出的所有属性词和情感词,进入后续遍历阶段;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510563709.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top