[发明专利]一种网络舆情的情感极性分析方法和装置有效
| 申请号: | 201811003419.7 | 申请日: | 2018-08-30 |
| 公开(公告)号: | CN109446404B | 公开(公告)日: | 2022-04-08 |
| 发明(设计)人: | 汪自立;臧冬松;唐文杰;康钰于;聂离乡 | 申请(专利权)人: | 中国电子进出口有限公司 |
| 主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F16/332;G06F40/30;G06F16/9535;G06K9/62 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
| 地址: | 100036 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 网络 舆情 情感 极性 分析 方法 装置 | ||
1.一种网络舆情的情感极性分析方法,其特征在于,包括以下步骤:
对待分析舆情信息进行文本特征提取;
将提取的文本特征输入预先训练好的舆情价值判别模型,输出文本舆情价值的概率;
当舆情价值的概率大于或等于预先设定的阈值则进行下一步,否则将文本标记为不具有舆情价值信息并停止其的情感极性分析;
通过多种预先训练好的情感特征模型从不同层面对文本的情感特征进行抽取;
将抽取的情感特征输入预先训练好的情感极性判别模型,输出情感极性的概率分布,选择最大概率的情感极性作为文本的情感极性;
所述情感特征模型包括:基于情感词典的情感特征模型、多元词情感特征模型、语义情感特征模型;所述基于情感词典的情感特征模型的训练包括以下步骤:建立情感表情词典、情感词典、情感短语词典、特殊符号词典;根据建立的各词典,对训练语料进特征提取,得到特征向量;用特征向量和标签,通过SVM算法,训练得到基于情感词典的情感特征模型;
所述多元词情感特征模型的训练包括以下步骤:建立二元、三元词表;根据词表提取训练集特征向量;使用训练集特征向量和相应标签,通过NB算法,训练多元词情感特征模型;
所述语义情感特征模型的训练包括以下步骤:利用词嵌入模型,提取训练语料的语义向量;使用语义向量和相应标签作,通过softmax回归算法,训练语义情感特征模型。
2.根据权利要求1所述的方法,其特征在于,所述文本特征提取包括:通过预先训练的主题模型,提取文本主题特征;根据预先定义的规则,提取文本规则特征。
3.根据权利要求1所述的方法,其特征在于,所述词嵌入模型的训练包括以下步骤:a)通过网络爬虫、社交媒体API接口获取海量社交文本作为原始语料;b)将原始语料进行语义特征处理后,通过词嵌入算法进行语义建模;所述词嵌入算法包括以下任何一种:word2vec,GloVe,FastText。
4.根据权利要求3所述的方法,其特征在于,所述语义特征处理包括以下步骤:a)特殊字符替换,包括并不限于:URL替换、提及替换、表情符号替换、日期替换、数字替换;b)转发文档转换:将转发转换为原文;c)文档去重;d)过滤掉低于指定单词数的文档。
5.根据权利要求2所述的方法,其特征在于,所述主题模型的训练包括以下步骤:a)通过网络爬虫、社交网站API接口获取大量社交文本作为原始语料;b)将原始语料进行主题特征处理后,通过主题建模算法进行主题建模;所述主题建模算法包括以下任何一种:PLSA,CTM,LDA及其他LDA变种模型。
6.根据权利要求5所述的方法,其特征在于,所述主题特征处理包括以下步骤:a)特殊字符替换,包括:URL替换、提及替换、表情符号替换、日期替换、数字替换;b)转发文档转换:将转发转换为原文;c)文档去重,包括消息ID去重和完全匹配去重;d)停用词过滤,通过自定义停用词表进行过滤;e)高频词过滤:过滤掉前n个高频词,n为任意正整数;f)低频词过滤:过滤掉词频少于n次的词,n为任意整数;g)最少有效词文档过滤:过滤词数少于n的词的文档,n为任意整数。
7.根据权利要求2所述的方法,其特征在于,所述预先定义的规则包括:文本是否存在URL;文本是否存在标签;文本是否存在表情;文本是否存在提及;文本作者是否拥有超过指定数量的粉丝;文本是否被大量转发。
8.根据权利要求1所述的方法,其特征在于,文本满足以下特征之一将被定义为不具有舆情价值:私人性质对话;文本不包含任何公众关心内容,所述公众关心内容包括事件、新闻、实体。
9.根据权利要求1所述的方法,其特征在于,所述舆情价值判别模型的训练包括以下步骤:通过网络收集正例语料;再随机抽样部分主题模型训练语料作为无标记语料;对正例语料和无标记语料进行主题特征处理;将处理后的语料通过所训练的主题模型和预先定义的规则进行特征提取;将所得特征通过正例和无标记样本学习算法训练舆情价值判别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子进出口有限公司,未经中国电子进出口有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811003419.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:商品搜索匹配方法及系统
- 下一篇:基于大数据的旅游产业推广方法及系统





