[发明专利]一种文本匹配方法、装置、终端设备和存储介质在审
| 申请号: | 202011228709.9 | 申请日: | 2020-11-06 |
| 公开(公告)号: | CN112182167A | 公开(公告)日: | 2021-01-05 |
| 发明(设计)人: | 谢舒翼 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/30 |
| 代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 任敏 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 匹配 方法 装置 终端设备 存储 介质 | ||
本申请适用于人工智能技术领域,提出一种文本匹配方法、装置、终端设备和存储介质。该方法包括:获取第一文本语句和第二文本语句;对第一文本语句和第二文本语句进行拼音转换,得到第一文本语句的第一拼音以及第二文本语句的第二拼音;将第一文本语句和第一拼音拼接,得到第一文本语料,以及将第二文本语句和第二拼音拼接,得到第二文本语料;将第一文本语料和第二文本语料分别输入预先构建的文本转换模型,得到第一文本语句对应的第一句向量以及第二文本语句对应的第二句向量;根据第一句向量和第二句向量计算得到第一文本语句与第二文本语句之间的匹配度,采用该方法能够提高文本匹配的准确率。
技术领域
本申请属于人工智能技术领域,尤其涉及一种文本匹配方法、装置、终端设备和存储介质。
背景技术
文本匹配是自然语言处理的一个核心问题,很多自然语言处理的任务都可以抽象成文本匹配问题,例如,信息检索系统、问答系统、对话系统、阅读理解系统等。随着语音系统的不断发展,越来越多的系统支持语音输入,由于语音转换成文本存在一定的差异性及人工输入的误差性,使得输入的文本存在一定的差错,而传统的文本匹配模型没办法正确进行文本匹配,导致意图识别错误,给用户带来不好的体验。
发明内容
有鉴于此,本申请提出一种文本匹配方法、装置、终端设备和存储介质,能够提高文本匹配的准确率。
第一方面,本申请实施例提供了一种文本匹配方法,包括:
获取第一文本语句和第二文本语句;
对所述第一文本语句和所述第二文本语句进行拼音转换,得到所述第一文本语句的第一拼音以及所述第二文本语句的第二拼音;
将所述第一文本语句和所述第一拼音拼接,得到第一文本语料,以及将所述第二文本语句和所述第二拼音拼接,得到第二文本语料;
将所述第一文本语料和所述第二文本语料分别输入预先构建的文本转换模型,得到所述第一文本语句对应的第一句向量以及所述第二文本语句对应的第二句向量;
根据所述第一句向量和所述第二句向量计算得到所述第一文本语句与所述第二文本语句之间的匹配度。
本申请实施例将拼音作为一个新特征,与文本语句进行拼接,形成新的语料输入到文本转换模型中,使模型学习到包含拼音信息的更多语义信息。这样,即使出现语音转换文本错误时,模型也可以根据学习到的拼音信息,对输入信息进行纠正,返回正确的匹配信息,从而能够提高文本匹配的准确率。
进一步的,根据所述第一句向量和所述第二句向量计算得到所述第一文本语句与所述第二文本语句之间的匹配度,可以包括:
计算所述第一句向量和所述第二句向量之间的余弦相似度;
根据所述余弦相似度确定所述第一文本语句与所述第二文本语句之间的匹配度。
余弦相似度通过测量两个向量的夹角的余弦值来度量它们之间的相似性,故通过计算第一句向量和第二句向量之间的余弦相似度,可以用于确定两个文本语句的匹配度。
进一步的,根据所述第一句向量和所述第二句向量计算得到所述第一文本语句与所述第二文本语句之间的匹配度,可以包括:
基于所述第一句向量和所述第二句向量构建目标特征向量,所述目标特征向量用于衡量所述第一句向量和所述第二句向量的匹配关系;
采用多个全连接层对所述目标特征向量进行处理,得到所述第一文本语句与所述第二文本语句之间的匹配度。
在获得目标特征向量之后,可以将该目标特征向量输入多个全连接层,通过全连接层整合卷积层或池化层中具有类别区分性的局部信息,从而得到两个文本语句之间的相似程度,也即匹配度。
更进一步的,基于所述第一句向量和所述第二句向量构建目标特征向量,可以包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011228709.9/2.html,转载请声明来源钻瓜专利网。





