[发明专利]一种基于中文文本进行情感倾向分析的方法及装置在审

专利信息
申请号: 201610981654.6 申请日: 2016-11-08
公开(公告)号: CN108062300A 公开(公告)日: 2018-05-22
发明(设计)人: 杨希;杜晓黎;孙长秋 申请(专利权)人: 中移(苏州)软件技术有限公司;中国移动通信集团公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京派特恩知识产权代理有限公司 11270 代理人: 姚开丽;王军红
地址: 215163 江苏省苏州市高*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 中文 文本 进行 情感 倾向 分析 方法 装置
【说明书】:

发明公开了一种基于中文文本进行情感倾向分析的方法,包括:获取待测的中文本文,对所述中文文本中进行文本预处理得到所述中文文本中的指定文本;根据情感词典对所述指定文本进行情感分析得到第一情感特征值,并根据训练模型中的语料特征词典对所述指定文本进行情感分析得到第二情感特征值;根据所述第一情感特征值和所述第二情感特征值得到特征集合,将所述特征集合作为随机森林RF训练模型的输入特征向量进行情感预测,得到所述中文文本的情感倾向。本发明公开了一种基于中文文本进行情感倾向分析的装置。

技术领域

本发明涉及通信领域,尤其涉及一种基于中文文本进行情感倾向分析的方法及装置。

背景技术

新闻的情感分析判别是新闻舆情预警的最重要组成部分。有效的对新闻的情感倾向进行分析判别,能够更好的向用户预警新闻情报。

常见的情感分析总体上分为两种:机器学习情感分析方法和基于词典的情感分析方法。

对于机器学习情感分析方法,其存在一定的缺陷,主要在于没有很好的扩展性、适应新词能力较差。无论是半监督还是全监督的机器学习方法都需要人工的训练语料对模型进行训练,如果训练语料的覆盖面不全(一般而言,对于层出不穷的新闻来说,无法做到覆盖面全),那么无法很好的适用于新出现的新闻语料,需要经常性的对模型进行训练与更新。

对于基于词典的情感分析方法,其缺陷来自于词典本身。首先中文没有类似于英文SentiWordNet那样完善而开源的情感词典。其次,中文既可以单字成词,也可以多字成词的特殊性导致建立完善的中文情感词典的难度非常大。所以现有中文情感词典的效果都不是很理想。而在情感词典不准确的基础上想要对新闻进行情感倾向分析显然更加的困难以及不准确。

因此,亟需一种基于中文文本进行情感倾向分析的技术方案,对中文新闻的情感倾向具有高准确率、高延展性的判别能力。

发明内容

有鉴于此,本发明实施例希望提供一种基于中文文本进行情感倾向分析的方法及装置,对中文新闻的情感倾向具有高准确率、高延展性的判别能力。

本发明实施例的技术方案是这样实现的:

一方面,本发明实施例提供一种基于中文文本进行情感倾向分析的方法,所述方法包括:

获取待测的中文本文,对所述中文文本中进行文本预处理得到所述中文文本中的指定文本;

根据情感词典对所述指定文本进行情感分析得到第一情感特征值,并根据训练模型中的语料特征词典对所述指定文本进行情感分析得到第二情感特征值;

根据所述第一情感特征值和所述第二情感特征值得到特征集合,将所述特征集合作为随机森林RF训练模型的输入特征向量进行情感预测,得到所述中文文本的情感倾向。

在上述方案中,所述对所述中文文本中进行文本预处理得到所述中文文本中的指定文本包括:

对所述中文文本中进行文本切分处理得到所述中文文本的每一个分词和标点,并标注每一个分词的词性;

根据词性对所述中文文本的分词进行过滤得到指定分词,并得到由所述指定分词和所述标点构成的所述指定文本;其中,所述指定分词为具有情感属性的分词。

在上述方案中,所述方法还包括:

对于不存在于所述情感词典中第一情感词,分别统计语料库中第二情感词与所述第一情感词同时出现的次数、所述第二情感词出现的次数;其中,第二情感词为与所述第一情感词同时出现次数最多的情感词;

根据所述同时出现的次数和所述第二情感词出现的次数得到权值,根据所述第二情感词的情感分值和所述权值得到所述第一情感词的情感分值,将所述第一情感词和第一情感词对应的情感分值存储在所述情感词典中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(苏州)软件技术有限公司;中国移动通信集团公司,未经中移(苏州)软件技术有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610981654.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top