[发明专利]词向量处理方法及装置、存储介质及电子设备在审
申请号: | 202310532544.1 | 申请日: | 2023-05-11 |
公开(公告)号: | CN116562232A | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 刘康;曹家伟;杨明川;梁伟 | 申请(专利权)人: | 中国电信股份有限公司北京研究院;中国电信股份有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/289;G06F40/284;G06F18/22;G06N3/047;G06N3/084 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 孙宝海 |
地址: | 102200 北京市昌平区北七*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 向量 处理 方法 装置 存储 介质 电子设备 | ||
1.一种词向量处理方法,其特征在于,包括:
获取目标文本中待处理词和所述待处理词的上下文信息;
初始化词向量编码模型的输入层到隐藏层的第一权重矩阵,其中,所述词向量编码模型用于生成所述待处理词的词向量;
根据所述第一权重矩阵、所述待处理词的上下文信息和上下文信息中每个词对应的字相关性参数,确定所述词向量编码模型中隐藏层向量;所述字相关性参数表征一个词中多个字向量之间的相关性;
根据所述词向量编码模型中隐藏层向量,对第一权重矩阵进行调整,得到调整后的第一权重矩阵;
根据调整第一权重矩阵后的词向量编码模型,生成所述待处理词的词向量。
2.根据权利要求1所述的词向量处理方法,其特征在于,获取目标文本中待处理词和所述待处理词的上下文信息,包括:
获取待处理的目标文本;
对所述目标文本进行分词,得到多个按照目标文本语序排列的分词;
从多个所述分词中选取待处理词,确定所述待处理词的上下文信息。
3.根据权利要求1所述的词向量处理方法,其特征在于,根据所述词向量编码模型中隐藏层向量,对第一权重矩阵进行调整,得到调整后的第一权重矩阵,包括:
初始化所述词向量编码模型的隐藏层到输出层的第二权重矩阵;
基于所述词向量编码模型中隐藏层向量和所述第二权重矩阵,确定所述词向量编码模型的输出层概率分布;
根据所述词向量编码模型中输出层概率分布,对所述第一权重矩阵和所述第二权重矩阵进行调整,得到调整后的第一权重矩阵。
4.根据权利要求1所述的词向量处理方法,其特征在于,根据所述第一权重矩阵、所述待处理词的上下文信息和上下文信息中每个词对应的字相关性参数,确定所述词向量编码模型中隐藏层向量,包括:
根据所述待处理词的上下文信息,确定所述待处理词的上文词和下文词;
根据所述待处理词的上文词和下文词以及所述第一权重矩阵,确定所述待处理词的初始上文词的词向量和初始下文词的词向量;
根据初始上文词的词向量、上文词对应的字相关性参数、初始下文词的词向量和下文词对应的字相关性参数,确定所述词向量编码模型中隐藏层向量。
5.根据权利要求4所述的词向量处理方法,其特征在于,根据所述待处理词的上文词和下文词以及所述第一权重矩阵,确定所述待处理词的初始上文词的词向量和初始下文词的词向量,包括:
对上文词进行向量编码,得到上文词的编码;
对下文词进行向量编码,得到下文词的编码;
根据所述第一权重矩阵和上文词的编码,得到初始上文词的词向量;
根据所述第一权重矩阵和下文词的编码,得到初始下文词的词向量。
6.根据权利要求4所述的词向量处理方法,其特征在于,根据所述第一权重矩阵、所述待处理词的上下文信息和上下文信息中每个词对应的字相关性参数,确定所述词向量编码模型中隐藏层向量之前,所述方法还包括:确定上下文信息中每个词对应的字相关性参数;该步骤包括:
基于每个词包含的多个字的上下文序列,确定每个词中多个字的字向量;
计算每个词中任意两个字向量之间的余弦相似度;
根据每个词中任意两个字向量之间的余弦相似度,确定每个词对应的字相关性参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司北京研究院;中国电信股份有限公司,未经中国电信股份有限公司北京研究院;中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310532544.1/1.html,转载请声明来源钻瓜专利网。