[发明专利]一种网络舆情的情感极性分析方法和装置有效
| 申请号: | 201811003419.7 | 申请日: | 2018-08-30 |
| 公开(公告)号: | CN109446404B | 公开(公告)日: | 2022-04-08 |
| 发明(设计)人: | 汪自立;臧冬松;唐文杰;康钰于;聂离乡 | 申请(专利权)人: | 中国电子进出口有限公司 |
| 主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F16/332;G06F40/30;G06F16/9535;G06K9/62 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
| 地址: | 100036 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 网络 舆情 情感 极性 分析 方法 装置 | ||
本发明涉及一种网络舆情的情感极性分析方法和装置。社交媒体情感极性广泛应用于网络舆情监控系统中,但在实际应用中,由于无舆情价值的信息干扰,传统方法存在识别准确率低的问题。本发明通过预先对社交媒体文本进行处理,过滤掉不被公众关注的文本。再通过三种不同预先训练后的模型,提取情感特征值,然后通过一个预先训练后的线性分类器,最终预测文本所属情感类别。在实际运用中,由于能有效过滤无舆情价值信息,并从三个层次抽取文本情感特征,使得本发明在网络舆情情感极性层面上和单个文本情感极性识别精度层面上均有提升。
技术领域
本发明涉及自然语言处理领域或者舆情管理技术,尤其涉及一种网络舆情的情感极性分析方法和装置。
背景技术
近几年,随着互联网技术发展,社交媒体作为一种新的情绪表达渠道,已经深入人类生活方式。如国外的Twitter,facebook和国内的微博。目前,网络舆情监控中对情感极性的判别主要方式为:从社交媒体网站获取数据,利用算法对文本进行情感极性判断。
然而,从社交媒体网站获取数据中,大量的社交文本信息并不具有舆情价值,对其分析只会降低效率和降低舆情情感统计的准确度。
此外,传统的情感极性算法大部分仅仅能利用单一层面的特征来计算文本的情感特征,并不能有效利用文本特征。
发明内容
本发明的目的在于提供一种更为准确的网络舆情的情感极性分析方法和装置。
为达到上述目的,本发明提供如下技术方案:
一种网络舆情的情感极性分析方法,包括以下步骤:
对待分析舆情信息进行文本特征提取;
将提取的文本特征输入预先训练好的舆情价值判别模型,输出文本舆情价值的概率;
当舆情价值的概率大于或等于预先设定的阈值则进行下一步,否则将文本标记为不具有舆情价值信息并停止其的情感极性分析;
通过多种预先训练好的情感特征模型从不同层面对文本的情感特征进行抽取;
将抽取的情感特征输入预先训练好的情感极性判别模型,输出情感极性的概率分布,选择最大概率的情感极性作为文本的情感极性。
上述网络舆情的情感极性分析方法,包括两个部分——模型训练和文本极性判断:
模型训练部分包括:
a)收集网络舆情信息作为训练语料;
b)通过对训练语料进行主题特征处理后,通过主题建模算法,训练主题模型;
c)通过对训练语料进行语义特征处理后,通过词嵌入算法,训练词嵌入模型;
d)从语料中选取部分典型的具有舆情价值的文本作为正例集,再选取部分语料作为无标记语料;通过主题特征处理方法对正例语料和无标记语料进行处理后,输入至主题模型中,得到主题特征;通过预先定义的规则,提取规则特征;将规则特征和主题特征组合,通过正例和无标记样本(PU)学习算法,训练舆情价值判别模型;
e)建立情感表情词典、情感词典、情感短语词典、特殊符号词典,根据上面各词典,对训练集进特征提取,得到特征向量,再通过SVM算法,训练基于情感词典的情感特征模型;
f)根据训练语料,建立二元、三元词作为词典,根据词典提取训练集特征向量,通过朴素贝叶斯算法,训练多元词情感特征模型;
g)通过词嵌入模型,提取训练集词向量,利用以下算法计算文档向量:其中表示文档向量,N表示文档中有效的单词数,表示第i词的词向量;将文档向量作为特征,通过softmax回归算法训练语义情感特征模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子进出口有限公司,未经中国电子进出口有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811003419.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:商品搜索匹配方法及系统
- 下一篇:基于大数据的旅游产业推广方法及系统





