[发明专利]一种判别短文本情感倾向性的方法有效
| 申请号: | 201410206702.5 | 申请日: | 2014-05-15 |
| 公开(公告)号: | CN103955451B | 公开(公告)日: | 2017-04-19 |
| 发明(设计)人: | 陈里波;胡子扬;祁点点 | 申请(专利权)人: | 北京优捷信达信息科技有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙)32257 | 代理人: | 李广 |
| 地址: | 100123 北京市朝阳*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 判别 文本 情感 倾向性 方法 | ||
1.一种判别短文本情感倾向性的方法,包括:
A、直接从待分析文本中构建情感词典;
B、根据情感词典,基于局部依存关系判断待分析文本的情感极性;
所述步骤A包括:
A1、收集情感种子词和种子表情,参照开放语义词典和输入法词典,将正极性词及其同义词加入正极性的情感词表里;将其反义词加入负极性的情感词表里;将负极性词及其同义词加入负极性的情感词表里;将其反义词加入正极性的情感词表里;
A2、用网络爬虫搜集包含上述的种子词和种子表情的网络短文本,形成候选集;
A3、把候选集里的每一个短文本当作是一个隐马尔科夫链,使用维特比算法求出:对于观测到的数据,概率最大的词性标记序列,并统计分词;
A4、得到了分词结果和词性标注序列之后,将停用词过滤掉;
A5、对处理过后的候选集里的短文本,逐一遍历其中是否含有会翻转语义的标识词和句式,若含有,则为其确定否定依存范围及反问依存范围;
A6、计算候选集内所有短文本的情感极性可信度,并按可信度排名;计算公式如下:
其中,di为短文本;p为情感极性的个数,t为匹配到的情感词、表情的个数,tj为第j个匹配到的情感词或表情的频率;
A7、扩充情感词典:设定高精度候选集,选取可信度高于预定阈值的短文本,加入高精度候选集,再从高精度候选集中筛选符合预定规则的高频词;
重复A1~A7,直至结果稳定。
2.如权利要求1所述的一种判别短文本情感倾向性的方法,其特征在于:所述步骤A7还包括步骤:
用开放句法依存关系算法,计算与情感词典匹配上的情感标识词在短文本里的依存范围,并收录该范围的上一级依存范围内的词,进入候选词典;
计算候选词典里的高频词,选取词频排名次序高于预设的百分比的词填充到所述情感词典中;
如果局部依存关系明确,则在情感词典的词条中,标记情感词修饰的对象,以此记录词语搭配关系。
3.如权利要求1所述的一种判别短文本情感倾向性的方法,其特征在于,所述步骤B包括:
B1、数据预处理——把候选集里的每一个短文本当作是一个隐马尔科夫链,使用维特比算法求出:对于观测到的数据,概率最大的词性标记序列,并统计分词;
B2、数据分流——对仅含有一种情感极性的待分析文本,加入训练数据集;
对含有超过一种情感极性的待分析文本,标记为极性冲突;
对含有未能判断出情感极性的待分析文本,向量化表示,作输入数据;
将构建好的情感词典,作为后置规则置入最大熵模型;
B3、判断情感极性——用含有且仅含有一种情感极性的训练数据训练出的最大熵模型,判断未匹配到情感词的文本,通过带第一后置规则的最大熵模型计算文本情感倾向;对于模型给出的极性概率低于预定阈值的文本,标记其为中立;这样就给出了待分析集合中每个文本标记情感倾向,共有:正向、负向、中立、冲突。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京优捷信达信息科技有限公司,未经北京优捷信达信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410206702.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种跟随装置
- 下一篇:环保设备远程自动监测数据采集装置





