[发明专利]一种判别短文本情感倾向性的方法有效

申请号：	201410206702.5	申请日：	2014-05-15
公开（公告）号：	CN103955451B	公开（公告）日：	2017-04-19
发明（设计）人：	陈里波;胡子扬;祁点点	申请（专利权）人：	北京优捷信达信息科技有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	苏州市中南伟业知识产权代理事务所(普通合伙)32257	代理人：	李广
地址：	100123 北京市朝阳***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种判别文本情感倾向性方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种判别短文本情感倾向性的方法，包括：

A、直接从待分析文本中构建情感词典；

B、根据情感词典，基于局部依存关系判断待分析文本的情感极性；

所述步骤A包括：

A1、收集情感种子词和种子表情，参照开放语义词典和输入法词典，将正极性词及其同义词加入正极性的情感词表里；将其反义词加入负极性的情感词表里；将负极性词及其同义词加入负极性的情感词表里；将其反义词加入正极性的情感词表里；

A2、用网络爬虫搜集包含上述的种子词和种子表情的网络短文本，形成候选集；

A3、把候选集里的每一个短文本当作是一个隐马尔科夫链，使用维特比算法求出：对于观测到的数据，概率最大的词性标记序列，并统计分词；

A4、得到了分词结果和词性标注序列之后，将停用词过滤掉；

A5、对处理过后的候选集里的短文本，逐一遍历其中是否含有会翻转语义的标识词和句式，若含有，则为其确定否定依存范围及反问依存范围；

A6、计算候选集内所有短文本的情感极性可信度，并按可信度排名；计算公式如下：

$<mrow><mi>C</mi><mi>o</mi><mi>n</mi><mi>f</mi><mi>i</mi><mi>d</mi><mi>e</mi><mi>n</mi><mi>c</mi><mi>e</mi><mrow><mo>(</mo><msub><mi>d</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mi>t</mi><msubsup><mo>Σ</mo><mi>j</mi><mi>n</mi></msubsup><msub><mi>t</mi><mi>j</mi></msub><mo>,</mo></mrow></mtd><mtd><mrow><mi>p</mi><mo><</mo><mn>2</mn></mrow></mtd></mtr><mtr><mtd><mrow><mn>0</mn><mo>,</mo></mrow></mtd><mtd><mrow><mi>p</mi><mo>&GreaterEqual;</mo><mn>2</mn></mrow></mtd></mtr></mtable></mfenced></mrow>$

其中，d_i为短文本；p为情感极性的个数，t为匹配到的情感词、表情的个数，t_j为第j个匹配到的情感词或表情的频率；

A7、扩充情感词典：设定高精度候选集，选取可信度高于预定阈值的短文本，加入高精度候选集，再从高精度候选集中筛选符合预定规则的高频词；

重复A1～A7，直至结果稳定。

2.如权利要求1所述的一种判别短文本情感倾向性的方法，其特征在于：所述步骤A7还包括步骤：

用开放句法依存关系算法，计算与情感词典匹配上的情感标识词在短文本里的依存范围，并收录该范围的上一级依存范围内的词，进入候选词典；

计算候选词典里的高频词，选取词频排名次序高于预设的百分比的词填充到所述情感词典中；

如果局部依存关系明确，则在情感词典的词条中，标记情感词修饰的对象，以此记录词语搭配关系。

3.如权利要求1所述的一种判别短文本情感倾向性的方法，其特征在于，所述步骤B包括：

B1、数据预处理——把候选集里的每一个短文本当作是一个隐马尔科夫链，使用维特比算法求出：对于观测到的数据，概率最大的词性标记序列，并统计分词；

B2、数据分流——对仅含有一种情感极性的待分析文本，加入训练数据集；

对含有超过一种情感极性的待分析文本，标记为极性冲突；

对含有未能判断出情感极性的待分析文本，向量化表示，作输入数据；