[发明专利]一种稀疏名词对齐方法及系统在审
| 申请号: | 202010501226.5 | 申请日: | 2020-06-04 |
| 公开(公告)号: | CN111797607A | 公开(公告)日: | 2020-10-20 |
| 发明(设计)人: | 蔡洁 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
| 主分类号: | G06F40/189 | 分类号: | G06F40/189;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 张睿 |
| 地址: | 430206 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 稀疏 名词 对齐 方法 系统 | ||
1.一种稀疏名词对齐方法,其特征在于,包括:
根据待处理语料的语系,选取对应的分割方式,对所述待处理语料进行分割,获取每一分割词语;
根据每一分割词语,按照多空间词嵌入的方法,获取若干空间词汇向量;
将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中,获取目标词向量与每一预测词汇向量之间的对齐关系矩阵,并将所述对齐关系矩阵输入到所述稀疏词语对齐模型的softmax函数中,获取所述目标词向量与每一预测词汇向量的对齐概率向量,所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到,预测词汇向量根据所述词汇向量得到;
根据所述对齐概率向量获取所述目标词汇对齐的译文中词汇,所述目标词汇为所述待处理语料中的一个分割词语,所述目标词向量为所述目标词汇对应的向量。
2.根据权利要求1所述的稀疏名词对齐方法,其特征在于,所述将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中,获取目标词向量与每一预测词汇向量的对齐关系矩阵,具体包括:
将每一词汇向量和所述目标词向量输入到所述稀疏词语对齐模型的输入层中,获取中间结果;
将所述中间结果作为所述稀疏词语对齐模型的对齐层,获取所述目标词向量和每一预测词汇向量之间的对齐关系矩阵。
3.根据权利要求1所述的稀疏名词对齐方法,其特征在于,所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到,具体包括:
将每一空间词汇向量样本输入到所述稀疏词语对齐模型的输入层,获取每一预测词汇向量;
计算每一预测词汇向量和参考词汇向量之间的交叉熵损失;
通过反向传播更新所述稀疏词语对齐模型的参数,重复上述过程,进行梯度下降找到局部最优解,获取训练后的稀疏词语对齐模型。
4.根据权利要求3所述的稀疏名词对齐方法,其特征在于,所述输入层包括第一输入单元和第二输入单元,其中:
所述第一输入单元由N个GRU神经网络组成,每一GRU神经网络按照预设方向依次连接,N表示所述待处理语料中所有分割词语的数量;
所述第二输入单元由N个GRU神经网络组成,每一GRU神经网络按照与所述预设方向相反的方向依次连接;
所述第一输入单元中每一GRU神经网络与所述第二输入单元中每一GRU神经网络一一对应连接。
5.根据权利要求4所述的稀疏名词对齐方法,其特征在于,所述对齐层由N个GRU神经网络组成,每一GRU神经网络按照所述预设方向依次连接;
所述第二输入单元中每一GRU神经网络与所述对齐层中每一GRU神经网络一一对应连接。
6.根据权利要求5所述的稀疏名词对齐方法,其特征在于,所述稀疏词语对齐模型还包括输出层,所述输出层由M个GRU神经网络组成,每一GRU神经网络按照与所述预设方向依次连接,M表示所述预设目标语言中所有分割词语的数量;
若M大于N,则所述对齐层中的前N个GRU神经网络与所述对齐层中的每一GRU神经网络一一对应连接;
若M小于N,则所述对齐层的每一GRU神经网络与所述对齐层中前M个GRU神经网络一一对应连接。
7.根据权利要求1所述的稀疏名词对齐方法,其特征在于,所述根据待处理语料的语系对应的分割方式,对所述待处理语料进行分割,获取每一分割词语,具体包括:
若所述待处理语料为拉丁语系,则对所述待处理语料按空格进行分割,获取每一分割词语;
若所述待处理语料为非拉丁语系,则对所述待处理语料按字符进行分割,获取每一分割词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010501226.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:高强阻燃弹性面料的制备方法
- 下一篇:一种术语替换方法及系统





