[发明专利]文本匹配方法、装置、终端设备以及存储介质在审
申请号: | 202210934949.3 | 申请日: | 2022-08-03 |
公开(公告)号: | CN115358208A | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 刘弘一;蒲珂宇;贺瑶函;杨一枭;李金龙 | 申请(专利权)人: | 招商银行股份有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06K9/62 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 梁爽 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 匹配 方法 装置 终端设备 以及 存储 介质 | ||
1.一种文本匹配方法,其特征在于,所述文本匹配方法包括:
将待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配,输出句向量对;
结合相似度度量计算所述句向量对的相似度;
根据所述相似度对所述待匹配的文本数据对进行相似文本匹配。
2.根据权利要求1所述的文本匹配方法,其特征在于,所述将待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配,输出句向量对的步骤之前,还包括:
对所述待匹配的文本数据对进行预处理,具体包括:
将所述待匹配的文本数据对进行干扰与噪声的去除;
将去除干扰和噪声后的所述待匹配的文本数据对进行数据增强,生成符合条件的待匹配的文本数据对。
3.根据权利要求2所述的文本匹配方法,其特征在于,所述将待匹配的文本数据对输入至预先搭建好的文本匹配网络模型中进行匹配,输出句向量对的步骤之前,还包括:
基于预先采集的待训练的文本数据对训练所述文本匹配网络模型,其中,所述待训练的文本数据对为经过预处理后的符合条件的待训练的文本数据对,所述文本匹配网络模型采用孪生神经网络来构建。
4.根据权利要求3所述的文本匹配方法,其特征在于,所述基于预先采集的待训练的文本数据对训练所述文本匹配网络模型的步骤包括:
获取所述预先采集的待训练的文本数据对,其中,所述待训练的文本数据对包括第一待训练的文本数据和第二待训练的文本数据;
将所述待训练的文本数据对进行分词,根据分词结果将所述第一待训练的文本数据和第二待训练的文本数据分别映射成第一ID和第二ID;
通过第一编码器的输入层将所述第一ID处理成第一输出向量;
通过所述第一编码器的池化层对所述第一输出向量进行平均池化操作,提取所述第一输出向量的第一局部特征;
结合所述第一局部特征,通过所述第一编码器的所述池化层输出所述第一输出向量中包含的每个句子的第一句向量表示;
通过第二编码器的输入层将所述第二ID处理成第二输出向量;
通过所述第二编码器的池化层对所述第二输出向量进行平均池化操作,提取所述第二输出向量的第二局部特征;
结合所述第二局部特征,通过所述第二编码器的所述池化层输出所述第二输出向量中包含的每个句子的第二句向量表示,其中,所述第一句向量表示和所述第二句向量表示对应组成句向量对;
结合所述句向量对和预设的目标损失函数训练所述文本匹配网络模型,其中,所述目标损失函数结合对数似然函数和Centerloss损失函数进行设置。
5.根据权利要求4所述的文本匹配方法,其特征在于,所述结合所述句向量对和预设的目标损失函数训练所述文本匹配网络模型的步骤包括:
通过L2归一化所述句向量对的特征向量和权重向量,以消除径向变化;
将softmax损失重新表述为余弦损失,其中,引入余弦余量项以进一步最大化角空间中的决策余量;
通过L2归一化和余弦决策余量最大化来实现最小类内方差和最大类间方差;
通过二分类进行目标类别得分和非目标类别得分的两两比较;
通过对数似然LogSumExp自动平衡所述目标损失函数的每一项权重,以优化所述目标损失函数;
采用Adam优化器结合优化的所述目标损失函数进行梯度下降;
通过梯度下降来对模型参数进行迭代求解,得到最小化目标损失函数和模型参数值,终止训练,并得到训练后的文本匹配网络模型。
6.根据权利要求5所述的文本匹配方法,其特征在于,所述文本匹配网络模型使用循环神经网络RNN或transformer编码器模型来构建。
7.根据权利要求6所述的文本匹配方法,其特征在于,所述相似度度量包括:余弦相似度、曼哈顿或欧几里得距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于招商银行股份有限公司,未经招商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210934949.3/1.html,转载请声明来源钻瓜专利网。