[发明专利]一种判别短文本情感倾向性的方法有效

专利信息
申请号: 201410206702.5 申请日: 2014-05-15
公开(公告)号: CN103955451B 公开(公告)日: 2017-04-19
发明(设计)人: 陈里波;胡子扬;祁点点 申请(专利权)人: 北京优捷信达信息科技有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 苏州市中南伟业知识产权代理事务所(普通合伙)32257 代理人: 李广
地址: 100123 北京市朝阳*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 判别 文本 情感 倾向性 方法
【权利要求书】:

1.一种判别短文本情感倾向性的方法,包括:

A、直接从待分析文本中构建情感词典;

B、根据情感词典,基于局部依存关系判断待分析文本的情感极性;

所述步骤A包括:

A1、收集情感种子词和种子表情,参照开放语义词典和输入法词典,将正极性词及其同义词加入正极性的情感词表里;将其反义词加入负极性的情感词表里;将负极性词及其同义词加入负极性的情感词表里;将其反义词加入正极性的情感词表里;

A2、用网络爬虫搜集包含上述的种子词和种子表情的网络短文本,形成候选集;

A3、把候选集里的每一个短文本当作是一个隐马尔科夫链,使用维特比算法求出:对于观测到的数据,概率最大的词性标记序列,并统计分词;

A4、得到了分词结果和词性标注序列之后,将停用词过滤掉;

A5、对处理过后的候选集里的短文本,逐一遍历其中是否含有会翻转语义的标识词和句式,若含有,则为其确定否定依存范围及反问依存范围;

A6、计算候选集内所有短文本的情感极性可信度,并按可信度排名;计算公式如下:

<mrow><mi>C</mi><mi>o</mi><mi>n</mi><mi>f</mi><mi>i</mi><mi>d</mi><mi>e</mi><mi>n</mi><mi>c</mi><mi>e</mi><mrow><mo>(</mo><msub><mi>d</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mi>t</mi><msubsup><mo>&Sigma;</mo><mi>j</mi><mi>n</mi></msubsup><msub><mi>t</mi><mi>j</mi></msub><mo>,</mo></mrow></mtd><mtd><mrow><mi>p</mi><mo>&lt;</mo><mn>2</mn></mrow></mtd></mtr><mtr><mtd><mrow><mn>0</mn><mo>,</mo></mrow></mtd><mtd><mrow><mi>p</mi><mo>&GreaterEqual;</mo><mn>2</mn></mrow></mtd></mtr></mtable></mfenced></mrow>

其中,di为短文本;p为情感极性的个数,t为匹配到的情感词、表情的个数,tj为第j个匹配到的情感词或表情的频率;

A7、扩充情感词典:设定高精度候选集,选取可信度高于预定阈值的短文本,加入高精度候选集,再从高精度候选集中筛选符合预定规则的高频词;

重复A1~A7,直至结果稳定。

2.如权利要求1所述的一种判别短文本情感倾向性的方法,其特征在于:所述步骤A7还包括步骤:

用开放句法依存关系算法,计算与情感词典匹配上的情感标识词在短文本里的依存范围,并收录该范围的上一级依存范围内的词,进入候选词典;

计算候选词典里的高频词,选取词频排名次序高于预设的百分比的词填充到所述情感词典中;

如果局部依存关系明确,则在情感词典的词条中,标记情感词修饰的对象,以此记录词语搭配关系。

3.如权利要求1所述的一种判别短文本情感倾向性的方法,其特征在于,所述步骤B包括:

B1、数据预处理——把候选集里的每一个短文本当作是一个隐马尔科夫链,使用维特比算法求出:对于观测到的数据,概率最大的词性标记序列,并统计分词;

B2、数据分流——对仅含有一种情感极性的待分析文本,加入训练数据集;

对含有超过一种情感极性的待分析文本,标记为极性冲突;

对含有未能判断出情感极性的待分析文本,向量化表示,作输入数据;

将构建好的情感词典,作为后置规则置入最大熵模型;

B3、判断情感极性——用含有且仅含有一种情感极性的训练数据训练出的最大熵模型,判断未匹配到情感词的文本,通过带第一后置规则的最大熵模型计算文本情感倾向;对于模型给出的极性概率低于预定阈值的文本,标记其为中立;这样就给出了待分析集合中每个文本标记情感倾向,共有:正向、负向、中立、冲突。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京优捷信达信息科技有限公司,未经北京优捷信达信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410206702.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top