[发明专利]词向量处理方法及装置、存储介质及电子设备在审

专利信息
申请号: 202310532544.1 申请日: 2023-05-11
公开(公告)号: CN116562232A 公开(公告)日: 2023-08-08
发明(设计)人: 刘康;曹家伟;杨明川;梁伟 申请(专利权)人: 中国电信股份有限公司北京研究院;中国电信股份有限公司
主分类号: G06F40/126 分类号: G06F40/126;G06F40/289;G06F40/284;G06F18/22;G06N3/047;G06N3/084
代理公司: 北京律智知识产权代理有限公司 11438 代理人: 孙宝海
地址: 102200 北京市昌平区北七*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 向量 处理 方法 装置 存储 介质 电子设备
【说明书】:

本公开提供一种词向量处理方法、装置、存储介质及电子设备,涉及自然语言处理技术领域。词向量处理方法包括:获取目标文本中待处理词和待处理词的上下文信息;初始化词向量编码模型的输入层到隐藏层的第一权重矩阵,词向量编码模型用于生成待处理词的词向量;根据第一权重矩阵、待处理词的上下文信息和上下文信息中每个词对应的字相关性参数,确定词向量编码模型中隐藏层向量;字相关性参数表征一个词中多个字向量之间的相关性;根据隐藏层向量,对第一权重矩阵进行调整,得到调整后的第一权重矩阵;根据调整第一权重矩阵后的词向量编码模型,生成待处理词的词向量。本公开考虑了组成词的多个字之间的紧密联系程度,生成的词向量更为准确。

背景技术

词向量(Word embedding),又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。词向量的训练结果好坏直接影响到后续的自然语言处理任务的处理效果。

但主流词向量训练算法,都是针对英文的语料特点设计出来的,对于中文语料的训练结果并不理想,即中文语料训练得到的词向量不够准确,使得后续利用训练好的词向量进行聚类分析等处理时,不能够很好地识别语义。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供一种词向量处理方法及相关设备,至少在一定程度上克服相关技术中文语料训练得到的词向量不够准确的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

根据本公开的一个方面,提供了一种词向量处理方法,包括:

获取目标文本中待处理词和所述待处理词的上下文信息;

初始化词向量编码模型的输入层到隐藏层的第一权重矩阵,其中,所述词向量编码模型用于生成所述待处理词的词向量;

根据所述第一权重矩阵、所述待处理词的上下文信息和上下文信息中每个词对应的字相关性参数,确定所述词向量编码模型中隐藏层向量;所述字相关性参数表征一个词中多个字向量之间的相关性;

根据所述词向量编码模型中隐藏层向量,对第一权重矩阵进行调整,得到调整后的第一权重矩阵;

根据调整第一权重矩阵后的词向量编码模型,生成所述待处理词的词向量。

在一些实施例中,获取目标文本中待处理词和所述待处理词的上下文信息,包括:

获取待处理的目标文本;

对所述目标文本进行分词,得到多个按照目标文本语序排列的分词;

从多个所述分词中选取待处理词,确定所述待处理词的上下文信息。

具体实施例中,根据所述词向量编码模型中隐藏层向量,对第一权重矩阵进行调整,得到调整后的第一权重矩阵,包括:

初始化所述词向量编码模型的隐藏层到输出层的第二权重矩阵;

基于所述词向量编码模型中隐藏层向量和所述第二权重矩阵,确定所述词向量编码模型的输出层概率分布;

根据所述词向量编码模型中输出层概率分布,对所述第一权重矩阵和所述第二权重矩阵进行调整,得到调整后的第一权重矩阵。

在一些实施例中,根据所述第一权重矩阵、所述待处理词的上下文信息和上下文信息中每个词对应的字相关性参数,确定所述词向量编码模型中隐藏层向量,包括:

根据所述待处理词的上下文信息,确定所述待处理词的上文词和下文词;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司北京研究院;中国电信股份有限公司,未经中国电信股份有限公司北京研究院;中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310532544.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top