[发明专利]一种文本检索匹配方法和系统有效

专利信息
申请号: 202210357952.3 申请日: 2022-04-07
公开(公告)号: CN114428850B 公开(公告)日: 2022-08-05
发明(设计)人: 李太豪;黄剑韬;阮玉平;张晓宁;郑书凯 申请(专利权)人: 之江实验室
主分类号: G06F16/335 分类号: G06F16/335;G06F16/33;G06F40/284;G06N3/04;G06N3/08
代理公司: 杭州浙科专利事务所(普通合伙) 33213 代理人: 孙孟辉
地址: 311100 浙江省杭*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 检索 匹配 方法 系统
【说明书】:

发明属于人工智能领域,涉及一种文本检索匹配方法和系统,该方法包括:步骤一,采集不同领域的中文自然语言推理文本语料,作为句子表征模型的训练语料;步骤二,结合对比学习方法训练句子表征模型,再利用句子语义匹配基准数据集来测试并筛选出最佳句子表征模型;步骤三,使用筛选出的最佳句子表征模式,对要匹配的长短文本中的句子进行相似度计算;步骤四,根据相似度计算的结果,采用Sigmod函数得到句子的匹配分数,来判断是否为相似句子,完成文本检索。本发明根据文本的长度与各类模型的特性,利用最适合的模型架构进行文本检索的任务,解决了文本匹配遇到的缺乏考虑句子之间主题的相似性、模型长度限制等问题,提高了匹配的效果。

技术领域

本发明属于人工智能领域,具体涉及一种文本检索匹配方法和系统。

背景技术

文本匹配是一项自然语言处理中的核心任务,很多自然语言处理的任务都可以抽象成文本匹配问题,不管是在对话系统、推荐系统、搜索引擎中,文本匹配都是必不可少的。

在检索模型中,传统的文本匹配的做法是直接根据关键词检索或 BM25等算法计算相关性排序,但这种方法的缺点是需要维护大量的同义词典库和匹配规则。后续逐渐出现了LSA、LDA等隐含语义分析技术,试图利用文档中隐藏的潜在语义来进行文本的匹配,并能够达到比直接的关键词匹配更好的效果。而随着深度学习的兴起,尤其是大规模预训练模型的提出,模型在文本匹配上的效果逐渐接近人类水平。目前比较常见的做法是将两个句子拼接起来然后输入到BERT模型中,然后用CLS token输出的句向量过一个线性分类器计算两个句子之间的相似度。虽然这样的方法简单且有效地学习到了句子之间的语义关系,可是存在两个问题:1) 缺乏句子之间主题的相似性,2) 模型有长度限制。

在短文本匹配中,目前的技术往往只考虑句子间的语义相似性而忽略了其主题之间的相关性,而且在处理长文本匹配的问题,过去的方法是将所有句子拼接在一起,不仅没有考虑到编码器长度的限制,还遗漏了句子之间的语义交互信息。

发明内容

为了解决现有技术中存在的上述技术问题,本发明提出了一种文本检索匹配方法和系统,基于对比学习、图卷积神经网络与分层编码技术,其具体技术方案如下:

一种文本检索匹配方法,包括以下步骤:

步骤一,采集现有不同领域的中文自然语言推理文本语料,作为句子表征模型的训练语料;

步骤二,结合对比学习方法训练句子表征模型,再利用句子语义匹配基准数据集来测试并筛选出最佳句子表征模型;

步骤三,使用筛选出的最佳句子表征模式,对要匹配的长短文本中的句子进行相似度计算;

步骤四,根据相似度计算的结果,采用Sigmod函数得到句子的匹配分数,来判断是否为相似句子,完成文本检索。

进一步的,所述步骤一具体为:通过网络采集现有的中文自然语言推理的文本语料数据集,并将数据集的相似语句作为正例取出,作为句子表征模型的训练语料。

进一步的,所述步骤二具体包括如下步骤:

步骤2.1,设定句子表征模型训练的批次尺寸、学习速率、训练轮次,以对比学习方法的损失函数作为句子表征模型训练的目标,损失函数的表达式为:

其中,表示计算两个句子之间的余弦相似度,则表示句子经过编码器编码后的句向量,表示句子经过编码器编码后的句向量;

步骤2.2,利用步骤2.1训练好的句子表征模型得到每个句子的句向量,然后通过一个MLP多层感知器对句向量进行分类,得到两个句子相似度的分数,根据相似度分数选取在语义匹配基准数据集中相似度分数最高的模型作为最佳句子表征模型。

进一步的, 所述步骤三具体包括如下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210357952.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top