[发明专利]一种扩展情感词典的方法、装置、计算机设备和存储介质在审
申请号: | 202111323454.9 | 申请日: | 2021-11-08 |
公开(公告)号: | CN114116966A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 谭又伟;丁宁 | 申请(专利权)人: | 广州欢聊网络科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F40/242;G06F40/289;G06F40/30;G06K9/62 |
代理公司: | 广州佳睿知识产权代理事务所(普通合伙) 44610 | 代理人: | 李健富 |
地址: | 510000 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 扩展 情感 词典 方法 装置 计算机 设备 存储 介质 | ||
1.一种扩展情感词典的方法,其特征在于,所述方法包括以下步骤:
获取文本数据,对所述文本数据进行分词处理,根据得到的分词确定文本数据的目标分词;
统计所述目标分词的词频,将词频最大的前N个目标分词作为词集合;
将词集合与预先构建的基础情感词典取交集,得到由种子词组成的种子情感词典;所述种子情感词典包括n对相对情感的情感子词典;
分别计算所述目标分词tf_idf值,将tf_idf值大于预设阈值的目标分词作为基础情感词典的新增词;
基于新增词的词向量与各情感子词典中各词的词向量确定新增词的相似度向量,将绝对值大于预设阈值的相似度作为有效相似度;
基于新增词的tf_idf值、相似度向量、有效相似度确定新增词的情感向量;
基于新增词的情感向量、各情感子词典的情感中心向量确定新增词的极性;
基于新增词的情感向量、新增词相应极性的情感子词典的情感中心向量确定新增词的极性值。
2.根据权利要求1所述的方法,其特征在于,所述基于新增词的词向量与各情感子词典中各词的词向量确定新增词的相似度向量,包括:
基于新增词的词向量与各情感子词典中每个词的词向量的余弦相似度的均值确定新增词的相似度向量。
3.根据权利要求1所述的方法,其特征在于,在所述基于新增词的tf_idf值、相似度向量、有效相似度确定新增词的情感向量前,还包括:
求解情感向量模型,所述情感向量模型包括
tf_idfw×Diverge·Self·Contrast
其中,
Self(I(x)Sim(w))=(I(x)Sim(w)i+C2)β
其中,Sim(w)表示词w的相似度向量,count(Sim(w))表示词w的有效相似度个数,||Sim(w)||表示词w的有效相似度的2-范数,C0、C1、C2为常数,α、β、γ为参数;
参数求解,定义损失函数
Loss=Loss1+Loss2
其中,
D1={(w1,w2)|对于任意的w1和w2,如果w1和w2属于同一情感子词典}
D2={(w1,w2)|对于任意的w1和w2,如果w1和w2分别属于一对相对情感的两情感子词典}
调节参数α、β、γ,根据全局误差确定参数α、β、γ的取值。
4.根据权利要求3所述的方法,其特征在于,所述基于新增词的tf_idf值、相似度向量、有效相似度确定新增词的情感向量,包括:
基于情感向量模型,获取新增词的情感向量。
5.根据权利要求3所述的方法,其特征在于,所述基于新增词的情感向量、各情感子词典的情感中心向量确定新增词的极性,包括:
基于种子词的词向量与各情感子词典中各词的词向量确定新增词的相似度向量,将绝对值大于预设阈值的相似度作为有效相似度;
基于情感向量模型,获取种子词的情感向量;
基于种子词的情感向量确定各情感子词典的情感中心向量;
基于新增词的情感向量与各情感子词典的情感中心向量的余弦相似度确定新增词的极性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州欢聊网络科技有限公司,未经广州欢聊网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111323454.9/1.html,转载请声明来源钻瓜专利网。