[发明专利]句对匹配率的确定方法、装置、计算机设备和存储介质在审
| 申请号: | 202010771675.1 | 申请日: | 2020-08-04 |
| 公开(公告)号: | CN111783430A | 公开(公告)日: | 2020-10-16 |
| 发明(设计)人: | 高俊 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/216;G06F40/126;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 黄晶晶 |
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 匹配 确定 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种自然语言处理的句对匹配率的确定方法、装置、计算机设备和存储介质。所述方法包括:获取句对,并确定所述句对的词对;所述词对包括相匹配的词,且相匹配的词分别来自所述句对中的不同句子;获取所述词对中的各词的词向量,根据所述各词的词向量确定所述各词之间的相似度;通过多视角注意力网络的各层基于所述各词的词向量进行注意力分配处理,得到所述各层输出的所述词对的词对权重;根据所述相似度和所述词对权重,确定所述句对中所述不同句子的匹配率。采用本方法能够准确预测句子间的匹配概率。
技术领域
本申请涉及计算机技术领域,特别是涉及一种句对匹配率的确定方法、装置、计算机设备和存储介质。
背景技术
众多自然语言处理领域的研究都依赖于大规模的平行语料库的支撑,例如机器翻译、跨语言信息检索、双语词典构建、词对齐以及多语言词汇表征等。使用质量越高、资源越丰富的平行语料库,自然语言处理得到的目标结果越好。
句子对齐为众多跨语言的自然语言处理研究提供了高质量的平行句对,句子对齐旨在找到双语或多语文本中的语义对等的句对。而传统的句子对齐方法主要依赖于人工制定的浅层语义特征,并且容易受到语言稀疏性问题的影响,导致句子对齐的检测不准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够准确预测句子对齐概率的句对匹配率的确定方法、装置、计算机设备和存储介质。
一种句对匹配率的确定方法,所述方法包括:
获取句对,并确定所述句对的词对;所述词对包括相匹配的词,且相匹配的词分别来自所述句对中的不同句子;
获取所述词对中的各词的词向量,根据所述各词的词向量确定所述各词之间的相似度;
通过多视角注意力网络的各层基于所述各词的词向量进行注意力分配处理,得到所述各层输出的所述词对的词对权重;
根据所述相似度和所述词对权重,确定所述句对中所述不同句子的匹配率。
在一个实施例中,所述基于所述目标权重矩阵确定所述句对中的所述不同句子的匹配率,包括:
对所述目标权重矩阵进行最大池化处理,将最大池化处理后得到的矩阵进行全连接处理,以获得所述句对中的所述不同句子的匹配率。
一种句对匹配率的确定装置,所述装置包括:
句对获取模块,用于获取句对,并确定所述句对的词对;所述词对包括相匹配的词,且相匹配的词分别来自所述句对中的不同句子;
相似度确定模块,用于获取所述词对中的各词的词向量,根据所述各词的词向量确定所述各词之间的相似度;
词对权重确定模块,用于通过多视角注意力网络的各层基于所述各词的词向量进行注意力分配处理,得到所述各层输出的所述词对的词对权重;
匹配率确定模块,用于根据所述相似度和所述词对权重,确定所述句对中的所述不同句子的匹配率。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取句对,并确定所述句对的词对;所述词对包括相匹配的词,且相匹配的词分别来自所述句对中的不同句子;
获取所述词对中的各词的词向量,根据所述各词的词向量确定所述各词之间的相似度;
通过多视角注意力网络的各层基于所述各词的词向量进行注意力分配处理,得到所述各层输出的所述词对的词对权重;
根据所述相似度和所述词对权重,确定所述句对中所述不同句子的匹配率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010771675.1/2.html,转载请声明来源钻瓜专利网。





