[发明专利]文本匹配方法、装置、终端设备以及存储介质在审
申请号: | 202210934949.3 | 申请日: | 2022-08-03 |
公开(公告)号: | CN115358208A | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 刘弘一;蒲珂宇;贺瑶函;杨一枭;李金龙 | 申请(专利权)人: | 招商银行股份有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06K9/62 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 梁爽 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 匹配 方法 装置 终端设备 以及 存储 介质 | ||
本申请公开了一种文本匹配方法、装置、终端设备以及存储介质,其文本匹配方法包括:将经过预处理后的待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配,输出句向量对;结合相似度度量计算所述句向量对的相似度;根据所述相似度对所述待匹配的文本数据对进行相似文本匹配。本申请解决了现有的文本匹配方法训练的模型稳定性不足问题,提升文本匹配的准确率和效率。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文本匹配方法、装置、终端设备以及存储介质。
背景技术
近几年BERT、RoBERTa等预训练模型已经在文本语义相似度任务(semantictextual similarity,STS)上被广泛使用。然而,BERT要求将句子对拼接到一起再传入模型中,这会导致巨大的计算开销。例如,在10000条句子中寻找最相似的两条,则在模型预测阶段将会需要大量的时间。这将导致许多涉及篇章向量的任务,如相似度计算、聚类等无从开展。目前,学习句向量的方案大致上可以分为无监督和有监督两大类,其中有监督句向量比较所主流的方案是Facebook提出的“InferSent”,后面提出的“Sentence-BERT”进一步在BERT的基础上提出了一些改进。
但是,运用上述主流的有监督句向量比较方案,如InferSent、Sentence-BERT等进行文本匹配依旧存在不少技术上的缺点和不足。不管是InferSent还是Sentence-BERT,它们虽然有效,但存在训练和预测不一致的问题,如果直接优化预测目标cos值,预测效果往往特别差。现有的文本匹配方法训练的模型稳定性不足,致使文本匹配的准确率较差、效率较慢。
因此,有必要提出一种快速且高准确率的文本匹配方案。
发明内容
本申请的主要目的在于提供一种文本匹配方法、装置、终端设备以及存储介质,旨在解决现有的文本匹配方法训练的模型稳定性不足问题,提升文本匹配的准确率和效率。
为实现上述目的,本申请提供一种文本匹配方法,所述文本匹配方法包括:
将待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配,输出句向量对;
结合相似度度量计算所述句向量对的相似度;
根据所述相似度对所述待匹配的文本数据对进行相似文本匹配。
可选地,所述将待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配,输出句向量对的步骤之前,还包括:
对所述待匹配的文本数据对进行预处理,具体包括:
将所述待匹配的文本数据对进行干扰与噪声的去除;
将去除干扰和噪声后的所述待匹配的文本数据对进行数据增强,生成符合条件的待匹配的文本数据对。
可选地,所述将待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配,输出句向量对的步骤之前,还包括:
基于预先采集的待训练的文本数据对训练所述文本匹配网络模型,其中,所述待训练的文本数据对为经过预处理后的符合条件的待训练的文本数据对,所述文本匹配网络模型采用孪生神经网络来构建。
可选地,所述基于预先采集的待训练的文本数据对训练所述文本匹配网络模型的步骤包括:
获取所述预先采集的待训练的文本数据对,其中,所述待训练的文本数据对包括第一待训练的文本数据和第二待训练的文本数据;
将所述待训练的文本数据对进行分词,根据分词结果将所述第一待训练的文本数据和第二待训练的文本数据分别映射成第一ID和第二ID;
通过第一编码器的输入层将所述第一ID处理成第一输出向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于招商银行股份有限公司,未经招商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210934949.3/2.html,转载请声明来源钻瓜专利网。