[发明专利]一种基于web文本的观点挖掘与分类的方法有效

专利信息
申请号: 201410035384.0 申请日: 2014-01-24
公开(公告)号: CN103793503B 公开(公告)日: 2017-02-08
发明(设计)人: 闫波;张彬;宿红毅;郑宏 申请(专利权)人: 北京理工大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于web文本的观点挖掘与分类的方法,属于数据挖掘技术领域。本发明通过网络爬虫、观点挖掘、信息抽取、机器学习等技术从互联网中获取、发现新的话题,并持续跟踪和关注该话题,通过对得到话题的情感倾向性及真伪倾向性的综合分析。本发明能快速有效地在大数据时代背景下,通过从中挖掘热点主题倾向性走势,分析影响因子,为减少舆论导向对公众的负面影响,为互联网管理的决策提供参考。
搜索关键词: 一种 基于 web 文本 观点 挖掘 分类 方法
【主权项】:
一种基于web文本的观点挖掘与分类的方法,其特征在于:步骤1、初次获取web信息,初步处理并存入数据库:步骤2、使用向量空间模型进行文本特征构建,使用TF‑IDF模型计算特征词权重;采用Single‑Pass增量聚类方法,检测话题相似度,获得与主题相关的话题群;步骤3、根据话题中时间窗口和话题数量,提取出话题的摘要和关键词,计算话题数量与时间窗口的比值,分值由大到小排列;取分值超过某个阈值以上的话题作为热点话题,呈现给用户;步骤4、对已知的热点话题进行二次专题网络抓取,结合利用发帖人ID,构造热点话题的用户拓扑网络,并对每个热点话题内的每个子话题的评论建立倒排索引;步骤5、读取已处理的话题数据和情感词典,根据情感词典和语法模式库,从语料中抽取情感特征,构造话题分类训练数据集;使用朴素贝叶斯分类算法训练,得到话题观点情感倾向性分类模型;步骤6、读入待情感分类的子话题;通过自然语言处理,得到经中文分词和词性标注好的子话题;根据情感词典和语法模式库,从子话题中抽取情感特征,构造测试数据集;分类器读取测试数据和已训练好的话题情感分类模型,保存子话题情感分类结果;步骤7、话题观点情感倾向性识别后,对其话题进行真伪倾向性分类;构造用户信誉度、URL信誉度、权威结论集数据集;使用朴素贝叶斯分类算法,用户信誉度、URL信誉度、权威结论集作为影响因子,通过训练得到话题真伪分类模型;步骤8、读入待真伪分类的子话题;根据从话题中抽取出的情感特征,结合步骤7中的URL信誉、权威结论集;分类器读取测试数据和已训练好的分类模型,输出子话题真伪性分类的预测结果;步骤9:对待分类话题进行解析,得到子话题集;调用对每个子话题进行分类得到的情感分类结果;根据子话题之间的相似度,构建LexRank图模型,利用所构建的图模型,计算子话题的重要性和冗余度,最终输出话题情感分类结果;步骤10:结合情感倾向性分类结果:正面、负面;真伪性分类结果:真实、 伪造;绘制表格,作为辅助分析,挖掘出观点的影响因子。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410035384.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top