[发明专利]文本匹配方法、装置、终端设备以及存储介质在审

申请号：	202210934949.3	申请日：	2022-08-03
公开（公告）号：	CN115358208A	公开（公告）日：	2022-11-18
发明（设计）人：	刘弘一;蒲珂宇;贺瑶函;杨一枭;李金龙	申请（专利权）人：	招商银行股份有限公司
主分类号：	G06F40/194	分类号：	G06F40/194;G06K9/62
代理公司：	深圳市世纪恒程知识产权代理事务所 44287	代理人：	梁爽
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本匹配方法装置终端设备以及存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种文本匹配方法、装置、终端设备以及存储介质，其文本匹配方法包括：将经过预处理后的待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配，输出句向量对；结合相似度度量计算所述句向量对的相似度；根据所述相似度对所述待匹配的文本数据对进行相似文本匹配。本申请解决了现有的文本匹配方法训练的模型稳定性不足问题，提升文本匹配的准确率和效率。

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种文本匹配方法、装置、终端设备以及存储介质。

背景技术

近几年BERT、RoBERTa等预训练模型已经在文本语义相似度任务(semantictextual similarity，STS)上被广泛使用。然而，BERT要求将句子对拼接到一起再传入模型中，这会导致巨大的计算开销。例如，在10000条句子中寻找最相似的两条，则在模型预测阶段将会需要大量的时间。这将导致许多涉及篇章向量的任务，如相似度计算、聚类等无从开展。目前，学习句向量的方案大致上可以分为无监督和有监督两大类，其中有监督句向量比较所主流的方案是Facebook提出的“InferSent”，后面提出的“Sentence-BERT”进一步在BERT的基础上提出了一些改进。

但是，运用上述主流的有监督句向量比较方案，如InferSent、Sentence-BERT等进行文本匹配依旧存在不少技术上的缺点和不足。不管是InferSent还是Sentence-BERT，它们虽然有效，但存在训练和预测不一致的问题，如果直接优化预测目标cos值，预测效果往往特别差。现有的文本匹配方法训练的模型稳定性不足，致使文本匹配的准确率较差、效率较慢。

因此，有必要提出一种快速且高准确率的文本匹配方案。

发明内容

本申请的主要目的在于提供一种文本匹配方法、装置、终端设备以及存储介质，旨在解决现有的文本匹配方法训练的模型稳定性不足问题，提升文本匹配的准确率和效率。

为实现上述目的，本申请提供一种文本匹配方法，所述文本匹配方法包括：

将待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配，输出句向量对；

结合相似度度量计算所述句向量对的相似度；

根据所述相似度对所述待匹配的文本数据对进行相似文本匹配。

可选地，所述将待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配，输出句向量对的步骤之前，还包括：

对所述待匹配的文本数据对进行预处理，具体包括：

将所述待匹配的文本数据对进行干扰与噪声的去除；

将去除干扰和噪声后的所述待匹配的文本数据对进行数据增强，生成符合条件的待匹配的文本数据对。

可选地，所述将待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配，输出句向量对的步骤之前，还包括：