[发明专利]一种基于大数据的观点抽取方法在审

申请号：	201510459157.5	申请日：	2015-07-30
公开（公告）号：	CN104965823A	公开（公告）日：	2015-10-07
发明（设计）人：	肖会	申请（专利权）人：	成都鼎智汇科技有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京天奇智新知识产权代理有限公司 11340	代理人：	郭霞
地址：	610000 四川省成都市高***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于数据观点抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于大数据的观点抽取方法，包括：

步骤S100，数据采集，基于分布式云计算方式对网络数据进行数据采集，所述数据采集是由网络爬虫来实现的；通过分布式存储设备存储采集的网络数据，所述分布式存储设备基于HDFS实现；

步骤S200，数据预处理，对步骤S100采集的网络数据进行预处理，首先对采集的网络数据进行分词和词性标注处理，然后进行标点符号处理、表情字符处理和停用词处理，最后得到用于表示文本的特征项；

步骤S300，话题抽取，基于预处理后的网络数据，从中抽取出话题；

步骤S400，对话题的评论进行情感分析，得到话题的正向情感和负向情感，从而确定对于话题的观点。

2.如权利要求1所述的基于大数据的观点抽取方法，其中，步骤S200进一步包括：

高质量词汇提取，步骤S200所得到的每一个特征项都隐含一个质量值，其反应特征项在文本中的贡献度，特征项t的质量Q(t)表示为：

Q(t)=lt2(Σi=1Nfi2-1N(Σi=1Nfi)2),]]>

其中，N表示所有文档的数量，f_i表示文档特征项t在文档i中出现的次数，l_t表示特征项t的长度，

设定阈值Q,对于Q(t)>Q的特征项予以保留，否则删除。

3.如权利要求1所述的基于大数据的观点抽取方法，其中，步骤S300包括：对步骤S200预处理得到的文本进行文本聚类，利用层次聚类算法计算每个类中文本对象的均值,得到k-means算法的初始聚类中心。利用k-means算法通过重新计算每个文本对象与聚类中心的距离,修正层次聚类结果中文本对象的归属类，算法步骤如下:

(1)确定聚类中心的个数k；

(2)利用层次聚类的方法对数据集进行层次聚类分析,得到k个类的均值,将它们作为k-means的初始聚类中心；

(3)计算每个文本对象与聚类中心的距离,将文本对象划分到离该文本对象最近的聚类中心所代表的簇；

(4)利用得到的值重新计算每个簇的聚类中心；

(5)重复(3)和(4),直到每个文本对象所属的类不再变化为止；

聚类结果所得到的类即确定为话题。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都鼎智汇科技有限公司，未经成都鼎智汇科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510459157.5/1.html，转载请声明来源钻瓜专利网。