[发明专利]一种词向量获取方法、装置及存储介质有效

专利信息
申请号: 201910749465.X 申请日: 2019-08-14
公开(公告)号: CN110598207B 公开(公告)日: 2020-09-01
发明(设计)人: 王子文;唐婧尧;薛云;赵洪雅 申请(专利权)人: 华南师范大学;深圳职业技术学院
主分类号: G06F40/289 分类号: G06F40/289;G06F40/30
代理公司: 广州骏思知识产权代理有限公司 44425 代理人: 吴静芝
地址: 510006 广东省广州市番禺区*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 向量 获取 方法 装置 存储 介质
【权利要求书】:

1.一种词向量获取方法,其特征在于:包括以下步骤:

收集带有情感标签的用户语料,获取用户语料中词语的情感分布信息;

根据所述词语的情感分布信息计算词语为设定情感标签的概率,基于Glove模型,以所述词语为设定情感标签的概率作为模型参数,构建情感词嵌入模型;

根据收集到的用户语料,调用所述情感词嵌入模型将用户语料中的词语映射到向量空间,获取词向量;

根据所述词语的情感分布信息计算词语为设定情感标签的概率,基于Glove模型,以所述词语为设定情感标签的概率作为模型参数,构建情感词嵌入模型的步骤包括:

在Glov e模型基础上,考虑情感二分类,利用词语积极情感概率的比值反映词语的情感差异性,构建函数F:

其中,Bi表示词Wi的情感标签是积极的概率,将1-Bi表示词Wi的情感标签是消极的概率,Bj表示词Wj的情感标签是积极的概率,将1-Bj表示词Wj的情感标签是消极的概率,wi、wj分别为词Wi、Wj的词向量,si、sj分别为词Wi、Wj对应的情感偏置向量;

根据所述函数F满足群和群之间的群同态,构建词嵌入模型,其中,所述词嵌入模型的损失函数为:

其中,wi为中心词对应的词向量,为上下文词对应的词向量,si为词Wi对应的情感偏置向量,Pik表示在词语Wi的上下文中词语Wk出现的概率,Bi表示词Wi的情感标签是积极的概率,V表示词汇表中词语的个数。

2.根据权利要求1所述的词向量获取方法,其特征在于:所述获取用户语料中的词语的情感分布信息的步骤包括:

对所述带有情感标签的用户语料进行包括分词处理、停用词处理的预处理;

统计用户语料中的词的词频信息,并给每个词标号,形成该语料对应的词典;

根据所述预处理后的用户语料与该语料对应的词典,统计词与词的共现频数信息,获取每个词语的情感分布信息;其中,所述词语的情感分布信息包括含有该词且情感标签为积极的文本数和包含该词且情感标签为消极的文本数。

3.根据权利要求1所述的词向量获取方法,其特征在于:所述情感词嵌入模型利用极大似然估计获取所述情感词嵌入模型中模型参数的估计值,将所述估计值代入所述情感词嵌入模型,获得基于极大似然估计的情感词嵌入模型,其中,所述基于极大似然估计的情感词嵌入模型的损失函数为:

其中,wi为中心词对应的词向量,为上下文词对应的词向量,si为词Wi对应的情感偏置向量,xik表示在词语Wi的上下文中词语Wk出现的频数,xi表示在词语Wi的上下文中所有词语出现的频数,ti1表示含有词Wi且情感标签为积极的文本数,ti表示含有词Wi的文本数,V表示词汇表中词语的个数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学;深圳职业技术学院,未经华南师范大学;深圳职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910749465.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top