[发明专利]基于多粒度孪生网络的中文句子语义匹配方法及系统在审
| 申请号: | 202110323155.9 | 申请日: | 2021-03-26 |
| 公开(公告)号: | CN112966524A | 公开(公告)日: | 2021-06-15 |
| 发明(设计)人: | 陈建峡;文轩;陈煜;张杰;程玉;刘琦;刘畅 | 申请(专利权)人: | 湖北工业大学 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F40/211;G06N3/04;G06N3/08 |
| 代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 蓝晓玉 |
| 地址: | 430050 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 粒度 孪生 网络 中文 句子 语义 匹配 方法 系统 | ||
本发明属于语义匹配技术领域,公开了一种基于多粒度孪生网络的中文句子语义匹配方法及系统,使用Word2Vec获得到预先训练的词向量,通过嵌入层将输入的中文句子序列将被转换为向量表示;其次,进入多粒度编码层分别从字符和单词视角捕捉句子的复杂语义特征;然后,将上一层输出的特征向量,输入语义交互层,进行语义交互;最后,将语义交互结果送入输出层,获得句子语义是否相似的结果。本发明提出来一种新的多粒度编码方式,从字符和单词两个角度捕捉句子中更丰富的语义信息,获得了更多的特征。本发明采用的孪生结构,从理论上减少了参数的数量,使模型获得了更快的训练速度。
技术领域
本发明属于语义匹配技术领域,尤其涉及一种基于多粒度孪生网络的中文句子语义匹配方法及系统。
背景技术
目前,句子语义匹配(Short text semantic matching)在很多自然语言处理任务中起着关键作用,例如问答(QA),机器翻译(MT),信息检索(information retrieval)等等。并且随着句子数据研究的不断深入,句子作为互联网中广泛存在的一种句子数据,正逐步展现出强大的数据价值。如何对句子进行有效挖掘和分析,成为一个研究热点。
随着对于句子语义匹配的不断研究,人们发现句子内容简短,特征稀疏,于是如何更好的挖掘句子中的特征,便成为了人们研究的方向。早期人们有的利用使用外部词汇资源,如WordNet,也有的人利用语法信息,建模两个句子之间依赖句法的差异,利用分布模型,如潜在语义分析,获得特征,但是以上方法由于对外部信息的需要和采用复杂的数学模型都不能有效且高效的解决句子语义的问题。
而随着深度学习的不断发展,越来越多的人选择使用深度学习的方法进行句子语义匹配,而在进入深度学习的模型之前,语句需要先进行分词,于是由于中文的特殊性,中文句子语义匹配经常会受到分词的影响,就有研究人员从句子的粒度这个角度获取更多的特征。现有技术1提出来一种同时捕获长距离和短距离依赖项的模型MV-LSTM,现有技术2提出来的模型在每个句子使用一个卷积神经网络,它在多个粒度级别上提取特征,并使用多种类型的池。Wang想要摆脱以前要么从一个方向匹配句子,要么只应用单个颗粒(逐词或逐句)匹配的方法。现有技术3提出了一个双边多视角匹配(BiMPM)模型。虽然上述方法或多或少的利用了多种粒度,但它们仍然忽略了个中粒度的作用。
通过上述分析,现有技术存在的问题及缺陷为:现有句子语义匹配方法忽略了粒度,导致语义匹配不准确,或者有的方法虽然利用了句子的粒度但是却忽略了部分粒度的作用,导致结果出现误差。
解决以上问题及缺陷的难度为:
句子内容简短,特征稀疏,如何更好的挖掘句子中的特征是主要的难点。如何合理的有效的提取特征,并同时提高模型的性能,避免由于新的特征给原始特征带来噪声。同时在对于多特征的利用时,需要合理的利用特征之间的共性和异性,在引入新的特征时,需要考虑使用参数量更少,更迅速的网络结构,提高模型整体的效率。
解决以上问题及缺陷的意义为:
句子-句子的语义匹配在工业界的应用场景非常广泛。对于句子-句子的语义匹配的研究和优化是具有十分重要的应用前景以及理论需求,一个优秀的句子-句子的语义匹配算法可以为自然语言处理领域的多种应用领域带了非常大的提升。
发明内容
针对现有技术存在的问题,本发明提供了一种基于多粒度孪生网络的中文句子语义匹配方法及系统。
本发明是这样实现的,一种基于多粒度孪生网络的中文句子语义匹配方法,包括:
首先,使用Word2Vec获得到预先训练的词向量,通过嵌入层将输入的中文句子序列将被转换为向量表示;其次,进入多粒度编码层分别从字符和单词视角捕捉句子的复杂语义特征;然后,将上一层输出的特征向量,输入语义交互层,进行语义交互;最后,将语义交互结果送入输出层,获得句子语义是否相似的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110323155.9/2.html,转载请声明来源钻瓜专利网。





