[发明专利]一种判别短文本情感倾向性的方法有效

申请号：	201410206702.5	申请日：	2014-05-15
公开（公告）号：	CN103955451B	公开（公告）日：	2017-04-19
发明（设计）人：	陈里波;胡子扬;祁点点	申请（专利权）人：	北京优捷信达信息科技有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	苏州市中南伟业知识产权代理事务所(普通合伙)32257	代理人：	李广
地址：	100123 北京市朝阳***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开一种判别短文本情感倾向性的方法，包括A、直接从待分析文本中构建情感词典；B、根据情感词典，基于局部依赖关系判断待分析文本的情感极性。本发明的目的是提出一种适用于句法不严谨的文本的，能得到短语搭配的情感极性的可行方案。首先是，本发明提出的自动构建情感词典的方法，不依赖大量外部标注样本，而是直接从待分析数据中构建。从而避免了开放情感词典和领域内容差异可能带来的弊端。其次是，本发明采用局部依存关系分析，可以适用于句子结构不严谨的文本，尤其是短文本，而且本发明的单个特征包含搭配信息，因而可以适用于相同情感标识词在不同上下文搭配中情感极性不同的情形。
搜索关键词：	一种判别文本情感倾向性方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种判别短文本情感倾向性的方法，包括：A、直接从待分析文本中构建情感词典；B、根据情感词典，基于局部依存关系判断待分析文本的情感极性；所述步骤A包括：A1、收集情感种子词和种子表情，参照开放语义词典和输入法词典，将正极性词及其同义词加入正极性的情感词表里；将其反义词加入负极性的情感词表里；将负极性词及其同义词加入负极性的情感词表里；将其反义词加入正极性的情感词表里；A2、用网络爬虫搜集包含上述的种子词和种子表情的网络短文本，形成候选集；A3、把候选集里的每一个短文本当作是一个隐马尔科夫链，使用维特比算法求出：对于观测到的数据，概率最大的词性标记序列，并统计分词；A4、得到了分词结果和词性标注序列之后，将停用词过滤掉；A5、对处理过后的候选集里的短文本，逐一遍历其中是否含有会翻转语义的标识词和句式，若含有，则为其确定否定依存范围及反问依存范围；A6、计算候选集内所有短文本的情感极性可信度，并按可信度排名；计算公式如下：Confidence(di)=tΣjntj,p<20,p≥2]]>其中，di为短文本；p为情感极性的个数，t为匹配到的情感词、表情的个数，tj为第j个匹配到的情感词或表情的频率；A7、扩充情感词典：设定高精度候选集，选取可信度高于预定阈值的短文本，加入高精度候选集，再从高精度候选集中筛选符合预定规则的高频词；重复A1～A7，直至结果稳定。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京优捷信达信息科技有限公司，未经北京优捷信达信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410206702.5/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种判别短文本情感倾向性的方法有效

专利文献下载