[发明专利]文本极性识别方法、装置、设备及可读存储介质有效
申请号: | 201910197367.X | 申请日: | 2019-03-15 |
公开(公告)号: | CN109933793B | 公开(公告)日: | 2023-01-06 |
发明(设计)人: | 侯皓文 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/35 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 张所明 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 极性 识别 方法 装置 设备 可读 存储 介质 | ||
1.一种文本极性识别方法,其特征在于,所述方法包括:
获取目标文本内容,所述目标文本内容为待识别极性的文本内容;
对所述目标文本内容进行分词处理,得到n个分词词汇,n为正整数;
提取所述n个分词词汇的词向量;
针对所述n个分词词汇中的目标词汇,确定所述目标词汇的上下文词汇的目标词向量之和;
从极性词汇表中抽取k个参考词汇,并提取k个所述参考词汇的词向量,k为正整数,所述极性词汇表中包括标注有极性值的参考词汇,所述参考词汇中包括种子词汇和语料词汇,所述种子词汇的极性值为预先标注的,所述语料词汇的极性值是根据训练语料以及所述种子词汇的所述极性值确定的;
确定k个所述参考词汇的参考词向量之和;
将所述目标词向量之和以及所述参考词向量之和代入第一损失函数,计算得到所述目标词汇的第一极性值,其中,所述第一损失函数用于根据所述目标词向量之和与第一激励函数的乘积以及所述参考词向量之和与第二激励函数的乘积计算所述第一极性值;
将所述目标词向量之和代入第二损失函数,计算得到所述目标词汇的第二极性值,其中,所述第二损失函数用于根据所述目标词向量之和与预测矩阵的乘积计算所述第二极性值;
计算所述第一极性值和所述第二极性值之和,得到所述目标词汇的词汇极性值;
根据所述n个分词词汇的所述词汇极性值确定所述目标文本内容的极性。
2.根据权利要求1所述的方法,其特征在于,所述极性词汇表是通过如下方法确定的:
获取已标注有所述极性值的所述种子词汇;
获取所述训练语料,其中,所述训练语料、所述种子词汇以及所述目标文本内容皆属于同一领域;
对所述训练语料进行分词处理,得到所述语料词汇;
提取所述种子词汇的第一词汇向量以及所述语料词汇的第二词汇向量;
根据所述第一词汇向量和所述第二词汇向量之间的距离,以及所述种子词汇的所述极性值确定所述语料词汇的所述极性值;
根据标注有所述极性值的所述语料词汇和所述种子词汇确定所述极性词汇表。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一词汇向量和所述第二词汇向量之间的距离,以及所述种子词汇的所述极性值确定所述语料词汇的所述极性值,包括:
根据所述第一词汇向量和所述第二词汇向量之间的距离,确定与所述语料词汇相似度最高的目标种子词汇;
将所述目标种子词汇与所述语料词汇的相似度和所述目标种子词汇的所述极性值的乘积,作为所述语料词汇的所述极性值。
4.根据权利要求1所述的方法,其特征在于,所述目标词汇的上下文词汇包括位于所述目标词汇之前距离所述目标词汇最近的两个词汇,以及位于所述目标词汇之后距离所述目标词汇最近的两个词汇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910197367.X/1.html,转载请声明来源钻瓜专利网。