[发明专利]生成词向量的方法、装置、计算机存储介质和电子设备有效

专利信息
申请号: 202010535868.7 申请日: 2020-06-12
公开(公告)号: CN111695358B 公开(公告)日: 2023-08-08
发明(设计)人: 刘志煌 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F40/30 分类号: G06F40/30;G06F40/237
代理公司: 深圳市深佳知识产权代理事务所(普通合伙) 44285 代理人: 夏欢
地址: 518000 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 生成 向量 方法 装置 计算机 存储 介质 电子设备
【说明书】:

本申请提供一种生成词向量的方法、装置、计算机存储介质和电子设备,获得每一语句中的目标文本单元的上下文窗口的关联文本单元组成的关联文本,利用文档主题生成模型挖掘所有关联文本组成的文本集合得到每一个语句的目标文本单元对应的主题分布向量,为主题分布向量相似度较高的目标文本单元配置相同语义标签,为主题分布向量相似度较低的目标文本单元配置不同语义标签,用添加语义标签后的训练语料集训练词向量模型,得到每一种语义标签的词向量。目标文本单元对应的主题分布向量可以反映目标文本单元的语境,通过主题分布向量的相似度的高低可以区分不同语句中目标文本单元的语义,并基于区分的结果训练词向量模型,以获得不同语义的词向量。

技术领域

发明涉及自然语言处理技术领域,特别涉及一种生成词向量的方法、装置、计算机存储介质和电子设备。

背景技术

自然语言处理是人工智能领域中的一个重要方向,该方向通常涉及情感分析,智能问答系统和机器翻译等任务。而计算机程序无法直接处理自然语言中的字或词,为了使计算机理解自然语言,一个必要的环节就是用对应的词向量表示自然语言包含的每个字或词,以便后续通过处理词向量实现以上任务。

现有技术一般是直接利用一个语料集合(其中包含多个句子)对现有的词向量(Word2Vec)模型进行训练,从而获得语料集合中的字或词对应的词向量。但是,自然语言中存在多义词,即一个词在不同语境下可以表示不同语义,而现有的方法对一个词只能生成唯一的词向量,无法反映多义词的不同语义,导致后续基于词向量实现的自然语言处理任务准确性较差。

发明内容

基于上述现有技术的缺点,本申请提供一种生成词向量的方法、装置、计算机存储介质和电子设备,以针对多义词的不同语义提供对应的词向量。

本申请第一方面提供一种生成词向量的方法,包括:

获得包括多个语句的训练语料集;其中,每一个所述语句均包括预先指定的目标文本单元,所述目标文本单元包含至少一个连续的文字;

针对训练语料集中的每一个语句,抽取所述语句的目标文本单元的上下文窗口中的每一个实体文本单元,并从文本数据库中获取除所述目标文本单元以外的每一个所述实体文本单元的关联文本单元;

利用文档主题生成模型挖掘包括每一个所述目标文本单元的上下文窗口的关联文本的文本集合,得到每一个所述目标文本单元的上下文窗口对应的主题分布向量;其中,一个所述目标文本单元的上下文窗口的关联文本包括:所述上下文窗口中的每一个实体文本单元的关联文本单元;

为所述训练预料集的每一个所述语句中的所述目标文本单元配置对应的语义标签,得到携带语义标签的目标文本单元;其中,对应的主题分布向量的相似度大于或等于相似度阈值的两个目标文本单元携带的语义标签相同,对应的主题分布向量的相似度小于所述相似度阈值的两个目标文本单元携带的语义标签不同;

用添加语义标签后的训练语料集训练词向量模型,并从训练后的词向量模型中获得所述训练语料集的每一个所述文本单元的词向量;其中,所述目标文本单元对应有多个词向量,且每一个所述词向量唯一对应于一种所述语义标签。

可选的,所述用添加语义标签后的训练语料集训练词向量模型,包括:

生成待训练的词向量模型和每一个所述文本单元的编码;其中,所述词向量模型包括每一个所述文本单元对应的初始词向量和多个参数向量;携带的所述语义标签相同的两个所述目标文本单元的编码相同,携带的所述语义标签不相同的两个所述目标文本单元的编码不同;

对所述添加语义标签后的训练语料集中的每一个所述文本单元执行下述训练过程:

获得所述文本单元的上下文窗口内其他文本单元的词向量;

若所述文本单元不是携带语义标签的目标文本单元,对所述上下文窗口包含的其他文本单元的词向量累加得到计算结果;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010535868.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top