[发明专利]文本情感倾向的判别方法有效
申请号: | 201710812048.6 | 申请日: | 2017-09-11 |
公开(公告)号: | CN107577665B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 秦科;段贵多;刘贵松;罗光春 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F16/35;G06K9/62 |
代理公司: | 成都希盛知识产权代理有限公司 51226 | 代理人: | 濮云杉;杨冬 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 情感 倾向 判别 方法 | ||
1.文本情感倾向的判别方法,其特征包括:
A.从语料库中获得训练语句,并对训练语句赋予类别标签;
B.对测试语句进行拆分,并根据训练语句的类别标签获得测试文本拆分后的每条语句的情感倾向得分;所述获得测试文本拆分后的每条语句的情感倾向得分的方法为:
先计算测试语句与所有训练语句的余弦相似度,利用KNN算法获取与测试语句最相似的K条训练语句,然后根据该K条最相似训练语句的类型标签以及对所述的余弦相似度归一化处理后的结果,加权获得测试语句的情感倾向得分;
C.根据“情感纯净度”、“关键词特性”和“语句在文本中的位置”三种特征获得所述拆分后的每条语句的初始权重;
对于测试语句vi,其情感纯净度purity(vi)的得分公式为:
其中,|vi|是vi中的词语个数;polarity(w)表示词语w的情感极性,词语的情感极性在情感词典中如果为正面,则polarity(w)为1;如果词语w的情感极性为负面,则polarity(w)为-1;
对于测试语句vi,其关键词特性keyword(vi)的得分公式为:
其中,KW是关键词集,EKW(w)为指示函数,当词语w∈KW时,EKW(w)为1;当词语时,EKW(w)为0;
对于测试语句vi,其位置特性position(vi)的得分公式为:
position(vi)=i2-m×i+100
其中,m代表测试文本T所包含的语句总数;i表示测试语句vi是文档中的第i个子句,i∈[1,m];
测试语句vi的初始权重weight(vi)的计算公式为:
weight(vi)=λ1×purity(vi)+λ2×keyword(vi)+λ3×position(vi)
其中λ1、λ2和λ3分别为情感纯净度得分、关键词特性得分、位置特性得分对应的权重值,且λ1+λ2+λ3=1;
D.以所述的每条语句为节点、每条语句之间的余弦相似度为边构建无向图;
E.根据所述的无向图构建有向图,有向图的节点为所述的每条语句,有向图的每条边表示始点到终点转移概率;
对于测试语句vi、vi′,vi至vi′的有向边权值以DGEW(vi,vi′)表示,计算公式为:
其中,DGEW(vi,vi′)≠DGEW(vi′,vi),V表示测试文本T经过语句拆分获得的测试语句集合V={v1,v2,...,vm},DGEW表示有向图边权值;
F.根据步骤E的有向图和步骤C的每条语句的初始权重,利用图排序方法迭代计算每条语句的权重值;
对于测试语句vi,以weightn(vi)表示第n次迭代后vi的权重值,其计算公式为:
G.迭代结束后,将所述每条语句的情感倾向得分根据归一化处理后的权重值加权求和,获得当前文本的情感倾向值,并以此判断当前文本的情感倾向性,如果情感倾向值大于0,则判断测试文本T为正面情感;如果情感倾向值小于0,则判断测试文本T为负面情感。
2.如权利要求1所述的文本情感倾向的判别方法,其特征为:步骤B中通过测试语句中的标点符号对测试语句进行拆分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710812048.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于显示信息的方法和装置
- 下一篇:一种自由定制的中文预处理方法及其系统