[发明专利]一种词向量获取方法、装置及存储介质有效
| 申请号: | 201910749465.X | 申请日: | 2019-08-14 |
| 公开(公告)号: | CN110598207B | 公开(公告)日: | 2020-09-01 |
| 发明(设计)人: | 王子文;唐婧尧;薛云;赵洪雅 | 申请(专利权)人: | 华南师范大学;深圳职业技术学院 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30 |
| 代理公司: | 广州骏思知识产权代理有限公司 44425 | 代理人: | 吴静芝 |
| 地址: | 510006 广东省广州市番禺区*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 向量 获取 方法 装置 存储 介质 | ||
1.一种词向量获取方法,其特征在于:包括以下步骤:
收集带有情感标签的用户语料,获取用户语料中词语的情感分布信息;
根据所述词语的情感分布信息计算词语为设定情感标签的概率,基于Glove模型,以所述词语为设定情感标签的概率作为模型参数,构建情感词嵌入模型;
根据收集到的用户语料,调用所述情感词嵌入模型将用户语料中的词语映射到向量空间,获取词向量;
根据所述词语的情感分布信息计算词语为设定情感标签的概率,基于Glove模型,以所述词语为设定情感标签的概率作为模型参数,构建情感词嵌入模型的步骤包括:
在Glov e模型基础上,考虑情感二分类,利用词语积极情感概率的比值反映词语的情感差异性,构建函数F:
其中,Bi表示词Wi的情感标签是积极的概率,将1-Bi表示词Wi的情感标签是消极的概率,Bj表示词Wj的情感标签是积极的概率,将1-Bj表示词Wj的情感标签是消极的概率,wi、wj分别为词Wi、Wj的词向量,si、sj分别为词Wi、Wj对应的情感偏置向量;
根据所述函数F满足群和群之间的群同态,构建词嵌入模型,其中,所述词嵌入模型的损失函数为:
其中,wi为中心词对应的词向量,为上下文词对应的词向量,si为词Wi对应的情感偏置向量,Pik表示在词语Wi的上下文中词语Wk出现的概率,Bi表示词Wi的情感标签是积极的概率,V表示词汇表中词语的个数。
2.根据权利要求1所述的词向量获取方法,其特征在于:所述获取用户语料中的词语的情感分布信息的步骤包括:
对所述带有情感标签的用户语料进行包括分词处理、停用词处理的预处理;
统计用户语料中的词的词频信息,并给每个词标号,形成该语料对应的词典;
根据所述预处理后的用户语料与该语料对应的词典,统计词与词的共现频数信息,获取每个词语的情感分布信息;其中,所述词语的情感分布信息包括含有该词且情感标签为积极的文本数和包含该词且情感标签为消极的文本数。
3.根据权利要求1所述的词向量获取方法,其特征在于:所述情感词嵌入模型利用极大似然估计获取所述情感词嵌入模型中模型参数的估计值,将所述估计值代入所述情感词嵌入模型,获得基于极大似然估计的情感词嵌入模型,其中,所述基于极大似然估计的情感词嵌入模型的损失函数为:
其中,wi为中心词对应的词向量,为上下文词对应的词向量,si为词Wi对应的情感偏置向量,xik表示在词语Wi的上下文中词语Wk出现的频数,xi表示在词语Wi的上下文中所有词语出现的频数,ti1表示含有词Wi且情感标签为积极的文本数,ti表示含有词Wi的文本数,V表示词汇表中词语的个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学;深圳职业技术学院,未经华南师范大学;深圳职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910749465.X/1.html,转载请声明来源钻瓜专利网。





