[发明专利]一种稀疏名词对齐方法及系统在审

申请号：	202010501226.5	申请日：	2020-06-04
公开（公告）号：	CN111797607A	公开（公告）日：	2020-10-20
发明（设计）人：	蔡洁	申请（专利权）人：	语联网（武汉）信息技术有限公司
主分类号：	G06F40/189	分类号：	G06F40/189;G06F40/284;G06N3/04;G06N3/08
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	张睿
地址：	430206 湖北省武汉市东湖新技术开***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种稀疏名词对齐方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供一种稀疏名词对齐方法及系统，该方法包括：根据待处理语料的语系，选取对应的分割方式，对待处理语料进行分割，获取每一分割词语；根据每一分割词语，按照多空间词嵌入的方法，获取若干空间词汇向量；将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中，获取目标词向量与每一预测词汇向量之间的对齐关系矩阵，并将对齐关系矩阵输入到稀疏词语对齐模型的softmax函数中，获取目标词向量与每一预测词汇向量的对齐概率向量；根据对齐概率向量获取目标词汇对齐的译文中词汇。本发明首次提出一种针对稀疏词语的稀疏稀疏词语对齐模型，对于比较稀疏词汇对齐效果比较好。

技术领域

本发明涉及计算机技术领域，尤其涉及一种稀疏名词对齐方法及系统。

背景技术

目前主要的词对齐方式是基于统计概率模型或者词典等语言知识库的规则混合，常见的统计概率模型有HMM或者其改良模型，但是对于比较稀疏词汇例如人物的姓名、小说创造的非常见姓名、或者小说中作者创造的“招式”“功法”等翻译，因为只在一本小说出现一次非常稀疏，通过统计很难获得其概率模型。

因此，亟需一种针对稀疏名词的对齐方法。

发明内容

为了解决上述问题，本发明实施例提供一种稀疏名词对齐方法及系统。

第一方面，本发明实施例提供一种稀疏名词对齐方法，包括：

根据待处理语料的语系，选取对应的分割方式，对所述待处理语料进行分割，获取每一分割词语；

根据每一分割词语，按照多空间词嵌入的方法，获取若干空间词汇向量；

将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中，获取目标词向量与每一预测词汇向量之间的对齐关系矩阵，并将所述对齐关系矩阵输入到所述稀疏词语对齐模型的softmax函数中，获取所述目标词向量与每一预测词汇向量的对齐概率向量，所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到，预测词汇向量根据所述词汇向量得到；

根据所述对齐概率向量获取所述目标词汇对齐的译文中词汇，所述目标词汇为所述待处理语料中的一个分割词语，所述目标词向量为所述目标词汇对应的向量。

优选地，所述将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中，获取目标词向量与每一预测词汇向量的对齐关系矩阵，具体包括：

将每一词汇向量和所述目标词向量输入到所述稀疏词语对齐模型的输入层中，获取中间结果；

将所述中间结果作为所述稀疏词语对齐模型的对齐层，获取所述目标词向量和每一预测词汇向量之间的对齐关系矩阵。

优选地，所述所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到，具体包括：

将每一空间词汇向量样本输入到所述稀疏词语对齐模型的输入层，获取每一预测词汇向量；

计算每一预测词汇向量和参考词汇向量之间的交叉熵损失；

通过反向传播更新所述稀疏词语对齐模型的参数，重复上述过程，进行梯度下降找到局部最优解，获取训练后的稀疏词语对齐模型。

优选地，所述输入层包括第一输入单元和第二输入单元，其中：

所述第一输入单元由N个GRU神经网络组成，每一GRU神经网络按照预设方向依次连接，N表示所述待处理语料中所有分割词语的数量；

所述第二输入单元由N个GRU神经网络组成，每一GRU神经网络按照与所述预设方向相反的方向依次连接；

所述第一输入单元中每一GRU神经网络与所述第二输入单元中每一GRU神经网络一一对应连接。