[发明专利]一种文本检索匹配方法和系统有效
| 申请号: | 202210357952.3 | 申请日: | 2022-04-07 |
| 公开(公告)号: | CN114428850B | 公开(公告)日: | 2022-08-05 |
| 发明(设计)人: | 李太豪;黄剑韬;阮玉平;张晓宁;郑书凯 | 申请(专利权)人: | 之江实验室 |
| 主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/33;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 孙孟辉 |
| 地址: | 311100 浙江省杭*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 检索 匹配 方法 系统 | ||
1.一种文本检索匹配方法,其特征在于,包括以下步骤:
步骤一,采集现有不同领域的中文自然语言推理文本语料,作为句子表征模型的训练语料;
步骤二,结合对比学习方法训练句子表征模型,再利用句子语义匹配基准数据集来测试并筛选出最佳句子表征模型,具体包括如下步骤:
步骤2.1,设定句子表征模型训练的批次尺寸、学习速率、训练轮次,以对比学习方法的损失函数作为句子表征模型训练的目标,损失函数的表达式为:
其中,表示计算两个句子之间的余弦相似度,则表示句子经过编码器编码后的句向量,表示句子经过编码器编码后的句向量;
步骤2.2,利用步骤2.1训练好的句子表征模型得到每个句子的句向量,然后通过一个MLP多层感知器对句向量进行分类,得到两个句子相似度的分数,根据相似度分数选取在语义匹配基准数据集中相似度分数最高的模型作为最佳句子表征模型;
步骤三,使用筛选出的最佳句子表征模式,对要匹配的长短文本中的句子进行相似度计算,具体包括如下步骤:
步骤3.1,采用最佳句子表征模型,对要匹配的长文本中的句子进行相似度计算,具体为:
利用最佳句子表征模型,对由个句子构成的第i个长文本采用分层式编码方法进行编码,,得到由个句向量组成的编码后的句向量集合, 然后将编码后的句向量集合输入到编码器中,对句子语义特征进行编码,输出向量即为结合了每一个句子的语义表征以及句子之间语义转换特征的结果,最后通过线性分类器输出句子相似度;所述分层式编码方法具体如下:对每个句子进行子层级的编码即单独编码得到句向量,再将编码得到的每个句子的句向量进行篇章层级的编码即对句子语义特征进行编码;
步骤3.2,采用最佳句子表征模型,对要匹配的短文本中的句子进行相似度计算,具体包括如下步骤:
步骤3.2.1,利用自然语言处理工具包HanNLP,对只有1个句子构成的短文本进行分词操作,即用自然语言处理工具包HanNLP中预先训练好的分词模型将句子切成若干个字词,
步骤3.2.2,找出若干个字词中的名词以及具有名词功能的形容词;
步骤3.2.3,采用数据增强的方式对短文本的句子进行扩写,后输入最佳句子表征模型,得到数据增强后的短文本中句子的句向量;
步骤3.2.4,将数据增强后的短文本中句子的句向量作为节点,节点与原始句子的句向量之间通过一条无向边连接,最后得到一张无向图,输入至图卷积神经网络;
步骤3.2.5,使用图卷积神经网络提取出短文本的特征向量,后采用余弦相似度方法计算短文本特征向量之间的相似度;
步骤四,根据相似度计算的结果,采用Sigmod函数得到句子的匹配分数,来判断是否为相似句子,完成文本检索。
2.如权利要求1所述的一种文本检索匹配方法,其特征在于,所述步骤一具体为:通过网络采集现有的中文自然语言推理的文本语料数据集,并将数据集的相似语句作为正例取出,作为句子表征模型的训练语料。
3.如权利要求1所述的一种文本检索匹配方法,其特征在于,所述步骤3.2.3中的数据增强的方式,具体为:首先利用开源的大规模词向量模型对短文本的句子进行随机同义词与近义词替换;然后将找出的名词与具有名词功能的形容词进行随机的复制;最后利用翻译的API接口将句子进行翻译互转,即句子先翻译成英文再翻译回中文。
4.如权利要求1所述的一种文本检索匹配方法,其特征在于,所述步骤3.2.5,具体包括:
a.采用线性变换操作以及Sigmoid函数来计算数据增强后的句子对原始句子的影响力权重,其计算公式为
,;
表示增强的句子的集合,表示第m个增强后的句子;和表示线性变换的权重;
b.利用图卷积神经网络更新原始句子并得到新的句子,其主要的计算公式为
其中表示的是原始句子与其增强的第j个句子之间的邻接矩阵adjacency matrix;
c. 利用余弦相似度方法计算短文本中句子的相似度,具体计算公式如下
。
5.如权利要求1所述的一种文本检索匹配方法,其特征在于,所述步骤四具体为:利用Sigmod函数将相似度计算结果映射到(0,1)区间内作为句子的匹配分数,若句子计算得到的匹配分数大于0.5,则视为相似句子,反之则为不相似句子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210357952.3/1.html,转载请声明来源钻瓜专利网。





