[发明专利]一种基于web文本的观点挖掘与分类的方法有效

申请号：	201410035384.0	申请日：	2014-01-24
公开（公告）号：	CN103793503B	公开（公告）日：	2017-02-08
发明（设计）人：	闫波;张彬;宿红毅;郑宏	申请（专利权）人：	北京理工大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 web 文本观点挖掘分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种基于web文本的观点挖掘与分类的方法，属于数据挖掘技术领域。

背景技术

随着Web2.0技术的发展，互联网发生翻天覆地的变化。互联网由静态网页和信息，转变成为人人参与的“群体智慧”的展示平台。通过博客、微博、BBS、SNS、新闻评论等，网民可以自由发布自己的观点想法和对任何事件进行评论。在一个网络互联的时代，任何的意见、想法都可能影响一大批人，形成网络舆论。现阶段越来越多的事件表明：网络舆论在影响社会舆论发展趋势，甚至已经作为一种主要社会舆论的方式。网民在网络上有意识或者无意识表达出来的民情民意，对社会热点问题的关注表达出的价值取向和观点越来越具有研究和参考价值。

热点话题和热点事件的检测和提取成为近年话题检测与跟踪研究的分支之一，从互联网数据中，主要是新闻，博客，论坛，社交网站和搜索日志等数据中获取热点特征组或者与行为短语，进行抽象提取，从而得到热点话题。由于传统博客、微博和社交网站上存在与日俱增的话题和数据，热点话题可以提供给用户搜索关键词参考，例如，Baidu搜索引擎中的热点话题推荐，将获取的热点话题进行推荐，并能时时更新。这些无疑促使热点新闻成为舆论的焦点，广泛的影响大众的视线，引导大众舆论，一定程度上体现民众的社会政治态度。面对多元化的网络舆情表达诉求，倘若不加引导，负面的网络舆情将会对社会的公共安全造成一定的危害。

目前大多数情感分析方面的研究工作都是主题无关的，即单纯判断一个文档或者一句话的情感极性，而不考虑这个文档是针对某个主题的情感。在这一研究领域，主要有三类方法：

（1）基于词典的方法：该类方法主要是将情感词表与人工制定的规则相结合。这类方法通常面临无法解决未登录词的问题。基于情感词典最简单的做法是，应用已有资源，如WordNet等构建情感词典，然后去看文本中包含正向情感词和负向情感词的个数判断文本的情感极性。

（2）有监督的机器学习方法：这类方法主要采用的机器学习模型有朴素贝叶斯，最大熵和支持向量机。以Pang等人的工作为例：Pang等人的工作主要是使用机器学习的方法划分电影评论的情感极性，即正向情感和负向情感。Pang等人首先对文本进行预处理，包括否定词提取、一元词提取、二元词提取、词性标注、提取位置信息等。然后将这些作为特征，再分别使用朴素贝叶斯，最大熵和支持向量机的方法来进行情感极性的分类。

（3）无监督的方法：这类方法主要通过指定基本的情感词，计算待挖掘观点的文本中的情感短语与基本情感词之间的分值来决定情感导向。

综上所述，进行网络舆情分析，实时把控舆情态势，形成正面的网络舆情环境，对于构建社会主义和谐社会具有现实指导意义。但是目前针对互联网的基于文本观点挖掘与分类的方法还是不多，与即时的发现热点、分析处理并评估舆论的要求尚有距离，因此，有必要提供一种基于文本观点挖掘与分类的方法。此方法应用在及时发现并监控网络舆情的热点话题，有利于让民众实时了解社会热点信息，为政府及相关部门制定政策提供辅助支持。加强信息的梳理，保证舆情的及时、准确和全面，可以有效的预防不良信息的传播。

发明内容

本发明提供一种web文本的观点挖掘与分类的方法，具体技术方案为：

步骤1、初次获取web信息，初步处理并存入数据库：

（1）使用网络爬虫获得互联网信息，通过网站提供的已知API接口获得数据，通过现有的网站发布的热点词作为关键字存入数据库作为已知热点话题；

（2）对原始网络信息进行预处理，包括：中文分词、词性标注、停用词处理，命名实体识别等。

（3）采集到的网页进行净化，通过模板的信息分类，过滤噪声信息；

步骤2、使用向量空间模型进行文本特征构建，使用TF-IDF模型计算特征词权重；采用Single-Pass增量聚类方法，检测话题相似度，获得与主题相关的话题群；

获得与主题相关的话题群过程包括：

（1）初始化加载已知的话题类，减少数据在时间窗内的冷启动；

（2）顺序读入已处理web文本的空间向量；

（3）计算TF-IDF权重，加入时下热点词汇，加入表情库，适当上调权重；

（4）计算当前文本与时间窗内文本的最大相似度；