[发明专利]一种基于web文本的观点挖掘与分类的方法有效

申请号：	201410035384.0	申请日：	2014-01-24
公开（公告）号：	CN103793503B	公开（公告）日：	2017-02-08
发明（设计）人：	闫波;张彬;宿红毅;郑宏	申请（专利权）人：	北京理工大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于web文本的观点挖掘与分类的方法，属于数据挖掘技术领域。本发明通过网络爬虫、观点挖掘、信息抽取、机器学习等技术从互联网中获取、发现新的话题，并持续跟踪和关注该话题，通过对得到话题的情感倾向性及真伪倾向性的综合分析。本发明能快速有效地在大数据时代背景下，通过从中挖掘热点主题倾向性走势，分析影响因子，为减少舆论导向对公众的负面影响，为互联网管理的决策提供参考。
搜索关键词：	一种基于 web 文本观点挖掘分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于web文本的观点挖掘与分类的方法，其特征在于：步骤1、初次获取web信息，初步处理并存入数据库：步骤2、使用向量空间模型进行文本特征构建，使用TF‑IDF模型计算特征词权重；采用Single‑Pass增量聚类方法，检测话题相似度，获得与主题相关的话题群；步骤3、根据话题中时间窗口和话题数量，提取出话题的摘要和关键词，计算话题数量与时间窗口的比值，分值由大到小排列；取分值超过某个阈值以上的话题作为热点话题，呈现给用户；步骤4、对已知的热点话题进行二次专题网络抓取，结合利用发帖人ID，构造热点话题的用户拓扑网络，并对每个热点话题内的每个子话题的评论建立倒排索引；步骤5、读取已处理的话题数据和情感词典，根据情感词典和语法模式库，从语料中抽取情感特征，构造话题分类训练数据集；使用朴素贝叶斯分类算法训练，得到话题观点情感倾向性分类模型；步骤6、读入待情感分类的子话题；通过自然语言处理，得到经中文分词和词性标注好的子话题；根据情感词典和语法模式库，从子话题中抽取情感特征，构造测试数据集；分类器读取测试数据和已训练好的话题情感分类模型，保存子话题情感分类结果；步骤7、话题观点情感倾向性识别后，对其话题进行真伪倾向性分类；构造用户信誉度、URL信誉度、权威结论集数据集；使用朴素贝叶斯分类算法，用户信誉度、URL信誉度、权威结论集作为影响因子，通过训练得到话题真伪分类模型；步骤8、读入待真伪分类的子话题；根据从话题中抽取出的情感特征，结合步骤7中的URL信誉、权威结论集；分类器读取测试数据和已训练好的分类模型，输出子话题真伪性分类的预测结果；步骤9：对待分类话题进行解析，得到子话题集；调用对每个子话题进行分类得到的情感分类结果；根据子话题之间的相似度，构建LexRank图模型，利用所构建的图模型，计算子话题的重要性和冗余度，最终输出话题情感分类结果；步骤10：结合情感倾向性分类结果：正面、负面；真伪性分类结果：真实、伪造；绘制表格，作为辅助分析，挖掘出观点的影响因子。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410035384.0/，转载请声明来源钻瓜专利网。

上一篇：采用模糊聚类与随机游走的计算机辅助乱针绣制作方法
下一篇：即时编译器中一种基于云的热路径优化方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于web文本的观点挖掘与分类的方法有效

专利文献下载