[发明专利]一种判别短文本情感倾向性的方法有效

专利信息
申请号: 201410206702.5 申请日: 2014-05-15
公开(公告)号: CN103955451B 公开(公告)日: 2017-04-19
发明(设计)人: 陈里波;胡子扬;祁点点 申请(专利权)人: 北京优捷信达信息科技有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 苏州市中南伟业知识产权代理事务所(普通合伙)32257 代理人: 李广
地址: 100123 北京市朝阳*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开一种判别短文本情感倾向性的方法,包括A、直接从待分析文本中构建情感词典;B、根据情感词典,基于局部依赖关系判断待分析文本的情感极性。本发明的目的是提出一种适用于句法不严谨的文本的,能得到短语搭配的情感极性的可行方案。首先是,本发明提出的自动构建情感词典的方法,不依赖大量外部标注样本,而是直接从待分析数据中构建。从而避免了开放情感词典和领域内容差异可能带来的弊端。其次是,本发明采用局部依存关系分析,可以适用于句子结构不严谨的文本,尤其是短文本,而且本发明的单个特征包含搭配信息,因而可以适用于相同情感标识词在不同上下文搭配中情感极性不同的情形。
搜索关键词: 一种 判别 文本 情感 倾向性 方法
【主权项】:
一种判别短文本情感倾向性的方法,包括:A、直接从待分析文本中构建情感词典;B、根据情感词典,基于局部依存关系判断待分析文本的情感极性;所述步骤A包括:A1、收集情感种子词和种子表情,参照开放语义词典和输入法词典,将正极性词及其同义词加入正极性的情感词表里;将其反义词加入负极性的情感词表里;将负极性词及其同义词加入负极性的情感词表里;将其反义词加入正极性的情感词表里;A2、用网络爬虫搜集包含上述的种子词和种子表情的网络短文本,形成候选集;A3、把候选集里的每一个短文本当作是一个隐马尔科夫链,使用维特比算法求出:对于观测到的数据,概率最大的词性标记序列,并统计分词;A4、得到了分词结果和词性标注序列之后,将停用词过滤掉;A5、对处理过后的候选集里的短文本,逐一遍历其中是否含有会翻转语义的标识词和句式,若含有,则为其确定否定依存范围及反问依存范围;A6、计算候选集内所有短文本的情感极性可信度,并按可信度排名;计算公式如下:Confidence(di)=tΣjntj,p<20,p≥2]]>其中,di为短文本;p为情感极性的个数,t为匹配到的情感词、表情的个数,tj为第j个匹配到的情感词或表情的频率;A7、扩充情感词典:设定高精度候选集,选取可信度高于预定阈值的短文本,加入高精度候选集,再从高精度候选集中筛选符合预定规则的高频词;重复A1~A7,直至结果稳定。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京优捷信达信息科技有限公司,未经北京优捷信达信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410206702.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top