[发明专利]文本匹配方法、装置、设备及存储介质在审
申请号: | 202110669568.2 | 申请日: | 2021-06-16 |
公开(公告)号: | CN113297354A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 周楠楠;汤耀华;杨海军;徐倩 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张娜;臧建明 |
地址: | 518027 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 匹配 方法 装置 设备 存储 介质 | ||
本申请公开了一种文本匹配方法、装置、设备及存储介质,所述方法包括:在进行文本匹配时,先将待匹配文本输入至预训练模型中,得到待匹配文本对应的第一向量表示,并根据待匹配文本中词汇之间的依存关系,确定的待匹配文本对应的第二向量表示,再结合第一向量和第二向量表示共同确定待匹配文本对应的目标向量表示,充分考虑到了待匹配文本中词汇之间的依存关系,提高了用于描述待匹配文本的向量表示的准确度;这样再根据准确度较高的目标向量表示,确定待匹配文本的匹配结果,提高了文本匹配结果的准确度。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文本匹配方法、装置、设备及存储介质。
背景技术
文本匹配在越来越多的领域内都得到的广泛的应用,例如,智能问答领域或者文本领域。
现有技术中,在进行文本匹配时,先在待匹配文本的首位增加CLS标志位,并将增加后的待匹配文本输入至预训练模型,并将预训练模型输出结果中最后一层CLS标志位的向量,确定为用于描述该待匹配文本的目标向量,再计算该目标向量与预先存储的文本对应的向量之间的相似度,从而根据相似度确定该待匹配文本与数据库中的文本是否匹配。
但是,采用现有的匹配方法,将预训练模型输出结果中最后一层CLS标志位的向量,确定为用于描述该待匹配文本的目标向量,会导致文本匹配的准确度较低。
发明内容
本申请的主要目的在于提供一种文本匹配方法、装置、设备及存储介质,旨在提高文本匹配的准确度。
为实现上述目的,本申请提供了一种文本匹配方法,所述文本匹配方法包括:
获取待匹配文本。
将所述待匹配文本输入至预训练模型中,得到所述待匹配文本对应的第一向量表示,并根据所述待匹配文本中词汇之间的依存关系,确定所述待匹配文本对应的第二向量表示。
根据所述第一向量表示和所述第二向量表示,确定所述待匹配文本对应的目标向量表示。
根据所述目标向量表示,确定所述待匹配文本的匹配结果。
在一种可能的实现方式中,所述根据所述待匹配文本中词汇之间的依存关系,确定所述待匹配文本对应的第二向量表示,包括:
将所述待匹配文本输入至预先训练的依存句法分析模型中,得到所述待匹配文本中词汇之间的依存关系。
根据所述待匹配文本中词汇之间的依存关系,确定所述待匹配文本中的至少一个核心词汇。
根据所述至少一个核心词汇中,各核心词汇对应的向量表示,确定所述第二向量表示。
在一种可能的实现方式中,所述核心词汇的数量为至少两个,所述根据所述至少一个核心词汇中,各核心词汇对应的向量表示,确定所述第二向量表示,包括:
对所述各核心词汇对应的向量表示进行加权平均;将加权平均结果确定为所述第二向量表示。
在一种可能的实现方式中,所述根据所述第一向量表示和所述第二向量表示,确定所述待匹配文本对应的目标向量表示,包括:
对所述第一向量表示和所述第二向量表示进行拼接处理,得到拼接处理后的向量表示。
将所述拼接处理后的向量表示,确定为所述目标向量表示。
在一种可能的实现方式中,所述将所述待匹配文本输入至预训练模型中,得到所述待匹配文本对应的第一向量表示,包括:
将所述待匹配文本输入至所述预训练模型中,得到所述待匹配文本对应的输出结果。
对所述输出结果中最后两层的向量进行加权平均,得到所述第一向量表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110669568.2/2.html,转载请声明来源钻瓜专利网。