[发明专利]Web主题倾向性挖掘与决策支持的方法有效

申请号：	201310059170.2	申请日：	2013-02-26
公开（公告）号：	CN103116644A	公开（公告）日：	2013-05-22
发明（设计）人：	张振刚;徐浩;杨沛;丁卓	申请（专利权）人：	华南理工大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	何淑珍
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	web 主题倾向性挖掘决策支持方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及Web数据的主题倾向性挖掘和决策支持的方法，尤其是针对海量Web数据的主题情感倾向性分析及决策支持。

背景技术

全球金融危机给许多传统产业带来了深度影响，使产业人士和投资者更加认识到可信赖商业资讯及其获取技术的重要性。对于企业来说，这些技术能辅助他们迅速有效地形成商业决策，有效地对风险进行管理和控制，提高他们的商业竞争力并最终令他们在市场竞争中获胜。基于上述共识，产业界对网络信息挖掘和智能决策服务的需求变得日益迫切。网络信息挖掘和智能决策服务涉及信息获取技术、文本分类技术、文本聚类技术、主题识别与跟踪技术以及文本倾向性分析等。这些技术一向是国内外资讯工作者关注的领域。文本检索会议(TREC)、情报检索专业组会议(SIGIR)、文本检测与跟踪会议(TDT)等都是展示此类技术最新研究成果的最主要的国际会议和论坛。

当前研究者提出了不少网络文本倾向性分析算法，主要集中在句子级和篇章级的文本倾向性分析上。目前的研究工作可分为两种研究思路：基于情感知识的方法以及基于特征分类的方法。前者主要是依靠一些已有的情感词典或领域词典，以及主观文本中带有情感极性的组合评价单元进行计算，来获取主观文本的极性。后者主要是使用机器学习的方法，选取大量的有意义的特征来完成分类任务。这两种研究思路有很多代表性的研究工作。在基于特征分类的方法中，Pang首次将机器学习的方法应用于篇章级的情感分类任务中。他们尝试使用了n-gram词语特征和词性特征，并对比了Navie Bayes、Max Entropy 和Support Vector Machine（SVM）三种分类模型，发现unigram 特征效果最好。然而， Cui通过实验证明，当训练语料较少的时候，unigram 的效果较优，但随着训练语料的增多，n-gram(n>3)发挥了越来越重要的作用。 Kim除了考察传统的n-gram 模型外，还引入了位置特征和评价词特征来完成句子级的褒贬分类。Zhao则将句子级情感分类任务提炼为一个三层分类任务，利用各层之间类别标签的相互作用，并考虑上下句之间情感的互相影响，使用Conditional Random Field（CRF）模型将这些特征进行融合。类似于主客观信息分类任务，基于特征的方法的研究重点在于有效特征的发现，以及特征选择和特征融合等问题的研究。除了对主观文本信息的褒贬二元分类之外，还有一些研究工作进行更细致的情感分类任务。Pang将褒贬等级分为三类，并使用了one-vs-all 多元分类算法和回归分类算法完成情感分类。Goldberg则使用了一种基于图的半指导的分类算法，完成评论的褒贬包括四个等级的分类。

综上所述，目前针对互联网上企业热点话题的倾向性情感分析和挖掘的方法还很少，距离即时商业智慧尚有距离。因此，有必要提供一种Web主题倾向性情感分析挖掘和决策支持的方法与系统，以弥补现有技术的不足。主题检测与跟踪可自动从Web数据流中自动发现主题并把主题相关的内容联系在一起，对企业相关的Web主题进行倾向性情感分析和挖掘，实现即时商业智慧，能更好地为企业提供决策支持服务。

发明内容

基于此，针对上述现有技术中存在的问题，本发明的目的在于提供一种Web主题倾向性挖掘与决策支持的方法，旨在针对互联网上企业热点话题的倾向性情感分析和挖掘，为企业的决策提供参考与支持。

为达到上述目的，本发明技术方案为：

一种Web主题倾向性挖掘与决策支持的方法，包括步骤：

S1. 网络信息抽取与储存，通过网络挖掘技术，在互联网上获取信息，并将结果存入数据库和本地文件系统；

S2. 信息的观点主题检测与跟踪，利用专题评论数据，检测识别出感兴趣的具有完整语义信息的观点主题,并持续跟踪和关注该观点主题；

S3. 观点主题情感倾向性识别，对企业的热点话题进行话题情感倾向性分类，挖掘出观点主题的情感倾向性。

进一步地，所述步骤S1还包括：

S11. 自然语言处理对原始网络信息进行预处理，包括：中文分词、词性标注、停用词处理，命名实体识别。

进一步地，所述步骤S2中网络资讯的观点主题检测与跟踪的过程具体包括：

S21.从网络上采集到的信息，经过基于模板的信息分类，过滤噪声信息；

S22. 将过滤后的相关信息，采用基于时间函数的增量聚类方法，实现子话题的检测，并将结果存储到数据库子话题表中；