[发明专利]针对中文微博的观点分析原型系统有效
申请号: | 201711344068.1 | 申请日: | 2017-12-15 |
公开(公告)号: | CN108038205B | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 廖祥文;陈国龙;张丽瑶;杨定达 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F40/30;G06F40/289;G06N3/04;G06Q50/00 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊;丘鸿超 |
地址: | 350116 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 中文 观点 分析 原型 系统 | ||
本发明涉及一种针对中文微博的观点分析原型系统。包括:一中文微博数据预处理模块,用于将不同用户在不同话题下发表的微博及其评论文本进行对话序列级联、中文分词,得到词向量字典;一一致性挖掘模块,对用户‑观点、话题‑观点、用户‑文本和话题‑文本之间的一致性构建抽象向量,从全局的角度刻画中文微博的特征,利用四者之间的相互联系挖掘出隐含的文本语义和观点信息;一特征抽取模块,基于上下文和卷积神经网络模型从局部和全局的角度抽取出不同类型的特征,并根据误差不断更新参数;一分类结果输出模块,用分类函数得到最终的观点分析结果。本发明能够自动抽取出有效特征,并对特征进行抽象和组合,最终识别出中文微博的不同观点类别。
技术领域
本发明涉及情感分析和观点挖掘领域,更具体地,涉及一种针对中文微博的观点分析原型系统,能够较好地进行观点类别的分析且通用性强,能应用于中文微博帖子和评论。
背景技术
当前,有很多技术方法可用于中文微博的观点分析。传统的文本观点分析方法主要分为基于词典和规则、基于机器学习等两大类。第一类方法需要事先获得与情感表达有关的词典,这些词典因语言和类型的不同而不同,然后分析所有出现的情感词的得分,并根据总的分值进行类别判定。这种方法比较粗糙,忽略了一词多义的现象,所以学者们引入了句法分析和语法规则进行更加精细的分析,但规则库或模式库的建立比较复杂,需要对大量语料进行分析和总结,且分析过程比较耗时。第二类方法分为有监督和无监督的,它们将数据分为训练集和测试集,在完成特征抽取和特征加权后,对训练数据加以学习,得到数学模型,进而预测待分类文本所属的类别。有监督方法准确度较高,但需要大量的人工标注,且和标注人员的主观意志有很大关系,而无监督方法节约人力,但准确度较低且受到基准词典的影响较大。
当前,存在着不同的文本表示模型,包括基于集合论的布尔模型、基于代数论的向量空间模型、基于概率统计的检索模型、N元语法模型和词向量模型。布尔模型简单直观,效果也不错,但存在“维数灾难”和“词汇鸿沟”的隐患;向量空间模型有一定的灵活性,效果也比较明显,但其独立性假设忽略了词之间的语义关联;基于概率统计的模型需要事先估计参数;词向量模型基于语言模型,将词转换成向量的形式,被广泛地用于词向量的初始化。
当前,还存在着不同的上下文信息的利用方式。对于中文微博而言,可分为内容上下文(content context)、结构上下文(structure context)和使用上下文。内容上下文指的是微博文本中词语、句子或段落间的前后关系,结构上下文指的是微博文本与话题、事件、人物等的隐含语义关系以及与图片、链接、视频的关联关系,使用上下文主要包括不同用户间的交互关系(如点赞、评论、回复、转发等)和用户操作记录。它们蕴含了大量的语义信息,既是一种知识,又是理解文本内容的重要线索。
然而,无论是基于词典和规则的方法还是基于机器学习的方法,都需要人工构造大量的特征,特征的迁移性较差,但对分类效果的影响非常大。近年来,随着深度学习被引入到自然语言处理领域,词向量和神经网络模型的研究受到了大量的关注,并在观点分析领域中取得了一系列突破性的成果。深度学习主要有以下4种模型:词袋模型、基于循环神经网络的序列模型、基于拓扑结构的递归神经网络、卷积神经网络。神经网络模型能够自动抽取出有效的特征,在英文领域已有大量的研究和应用,但用于中文微博观点分析的工作并不多,仍有很大的探索空间。
目前的中文微博观点分析方法大部分借鉴传统的文本分析方法,普遍存在数据稀疏问题,很大程度上受限于规则和特征的选择。此外,这些方法未充分利用中文微博的特点,无法有效地挖掘出潜在的观点信息。随着社交网络的日益普及和生活化,中文微博用户多、信息量大、更新速度快、涉及范围广,具有极高的研究和应用价值,需要通过数据挖掘和观点分析技术来发现其中的有用信息,以用于舆情监控、用户决策、市场分析和舆论引导等,这就对中文微博观点分析技术提出了一个挑战:如何构建一个有效的观点分析原型系统来满足其需要。因此,人们迫切希望有一种准确高效的中文微博观点分析方法,该方法能够自动抽取出有效特征,并对特征进行抽象和组合,最终识别出中文微博的不同观点类别。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711344068.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多枪燃烧水冷预混真空锅炉
- 下一篇:一种见光不变色的银离子抗菌剂