[发明专利]一种基于web文本的观点挖掘与分类的方法有效
申请号: | 201410035384.0 | 申请日: | 2014-01-24 |
公开(公告)号: | CN103793503B | 公开(公告)日: | 2017-02-08 |
发明(设计)人: | 闫波;张彬;宿红毅;郑宏 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 web 文本 观点 挖掘 分类 方法 | ||
1.一种基于web文本的观点挖掘与分类的方法,其特征在于:
步骤1、初次获取web信息,初步处理并存入数据库:
步骤2、使用向量空间模型进行文本特征构建,使用TF-IDF模型计算特征词权重;采用Single-Pass增量聚类方法,检测话题相似度,获得与主题相关的话题群;
步骤3、根据话题中时间窗口和话题中的包含数量,提取出话题的摘要和关键词,计算话题数量与时间窗口的比值,分值由大到小排列;取分值超过某个阈值以上的话题作为热点,呈现给用户;
步骤4、对已知的热点话题进行二次专题网络抓取,结合利用发帖人ID,构造专题话题的用户拓扑网络,并对每个热点话题内的每个子话题的评论建立倒排索引;
步骤5、读取已处理的话题数据和情感词典,根据情感词典和语法模式库,从语料中抽取情感特征,构造话题分类训练数据集;使用朴素贝叶斯分类算法训练,得到话题观点情感倾向性分类模型;
步骤6、读入待情感分类的子话题;通过自然语言处理,得到经中文分词和词性标注好的子话题;根据情感词典和语法模式库,从子话题中抽取情感特征,构造测试数据集;分类器读取测试数据和已训练好的话题情感分类模型,保存子话题情感分类结果;
步骤7、话题观点情感倾向性识别后,对其话题进行真伪倾向性分类;构造用户信誉度、URL信誉度、权威结论集数据集;使用朴素贝叶斯分类算法,用户信誉度、URL信誉度、权威结论集作为影响因子,通过训练得到话题真伪分类模型;
步骤8、读入待真伪分类的子话题;根据从话题中抽取出的情感特征,结合步骤7中的URL信誉、权威结论集、用户构造测试数据集;分类器读取测试数据和已训练好的分类模型,输出子话题真伪性分类的预测结果;
步骤9:对待分类话题进行解析,得到子话题集;调用对每个子话题进行分类得到的情感分类结果;根据子话题之间的相似度,构建LexRank图模型,利用所构建的图模型,计算子话题的重要性和冗余度,最终输出话题情感分类结果;
步骤10:结合情感倾向性分类结果:正面、负面;真伪性分类结果:真实、伪造;绘制表格,作为辅助分析,挖掘出观点的影响因子。
2.如权利要求1所述的一种基于web文本的观点挖掘与分类的方法,其特征还在于,热点话题二次抓取的过程包括:
(1)根据热点话题的关键词,用网络爬虫或API获取此专题相关的文本数据,预处理数据,热点话题即是中心话题,子话题就是中心话题相关的衍生话题,从网页中分离出用户评论数据;
(2)针对SNS、BBS等网络的结合用户ID,构造出基于此相关主题的用户的拓扑网络,根据社会化分析理论,对基于用户构造成的拓扑网络进行拓扑分析和中心度分析;依照分析拓扑和中心度的指标后,确定活跃用户节点或是网络言论领导者,并设置权重;
(3)定制情感字典,包括:否定词字典、程度词字典、感叹词字典、正面词字典、负面词字典;对评论分句计算单句情感指数,累计整条评论的感情指数获得最终感情指数,确定正反性;
(4)以评论中的关键词作为索引依据;对评论的得分进行排序,截取一定排名内,作为带有权重的有价值评论:
其中:Hi为本条评论的评论热度,userfuli是其他用户认为此评论为有效评论,viewi则是指此评论被浏览次数;Qi为评论质量;Ti为时间维度:ti是该条评论发布时间,t0为评论的原始话题发布时间,tnow则指评论排序的当前时间;其中λ为0到1之间的常数;
信息相关性公式如下:
其中,这里的t是指包含域信息的项;tf(t)为t在文档中出现的词频;idf(t)为t在几篇文档中出现过;b(t.field)为域的加权因子,在插入文档中设置;为词的个数,一个域中包含的t总数越多,也即文档越长,此值越小,文档越短,此值越大;
依据评论的信息相关性similari和用户节点的权重Wi以及质量与评价的时间,对评价的得分进行排序得到最终的排序结果Fsi;排序算法如下:
Fsi=α*similari+(1-α)*fun(Ti,Hi,Wi,β)
其中,fun(Ti,Hi,Wi,β)代表评论i品质的函数,具体实现依据不同的情况;α、β为0到1之间的常数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410035384.0/1.html,转载请声明来源钻瓜专利网。