[发明专利]基于内部对抗机制的语义匹配方法、装置及存储介质有效
| 申请号: | 202010119430.0 | 申请日: | 2020-02-26 |
| 公开(公告)号: | CN111427995B | 公开(公告)日: | 2023-05-26 |
| 发明(设计)人: | 骆迅;王科强;郝新东 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F40/211;G06F40/289;G06F40/30;G06N3/0464;G06N3/08 |
| 代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 袁文婷;王迎 |
| 地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 内部 对抗 机制 语义 匹配 方法 装置 存储 介质 | ||
1.一种基于内部对抗机制的语义匹配方法,其特征在于,包括如下步骤:
S110:对待匹配问题语句和候选问题语句分别进行分词处理和分字处理;
S120:分别对每一条所述分词处理后的候选问题语句和所述分词处理后的待匹配问题语句进行词向量化处理,以确定所述待匹配问题语句和所述候选问题语句基于词的句子对的句向量特征集合;以及,分别对每一条所述分字处理后的候选问题语句和所述分字处理后的待匹配问题语句进行字向量化处理,以确定所述待匹配问题语句和所述候选问题语句基于字的句子对的句向量特征集合;其中,所述候选问题语句为通过搜索引擎在指定数据库中检索出的与待匹配问题语句具有设定相似度的至少一个问题语句;
S130:将所述基于词的句子对的句向量特征集合和所述基于字的句子对的句向量特征集合进行拼接,确定所述候选问题语句与所述待匹配问题语句之间的相似度;
S140:将所述候选问题语句与所述待匹配问题语句之间的相似度按照由高向低的顺序排序,选出所述相似度排序在设定名次内的候选问题语句作为相似候选问题语句;
S150:分别对每一条相似候选问题语句和所述分词处理后的待匹配问题语句进行词向量化处理,以及,分别对每一条相似候选问题语句和所述分字处理后的待匹配问题语句进行字向量化处理;以分别确定基于词的所述待匹配问题语句的特征集合、基于词的所述相似候选问题语句的特征集合、基于字的所述待匹配问题语句的特征集合、以及基于字的所述相似候选问题语句的特征集合;将所确定的四个特征集合进行拼接后,确定所述相似候选问题语句与所述待匹配问题语句之间的相似度;
S160:分别将所述相似候选问题语句与所述待匹配问题语句之间的相似度、以及所述候选问题语句与所述待匹配问题语句之间的相似度按照由高向低的顺序排序,获取设定名次内的排序结果;并将两个排序结果作为皮尔逊相关系数计算公式的两个变量,计算相关系数,若所述相关系数达到设定的阈值,则以所述待匹配问题语句与所述候选问题语句相似度排序第一名的候选问题语句为语义匹配的结果,若所述相关系数低于所述设定的阈值,则重新通过搜索引擎在指定数据库中检索与待匹配问题语句具有设定相似度的至少一个问题语句,进行所述S120。
2.如权利要求1所述的基于内部对抗机制的语义匹配方法,其特征在于,在S110中,
所述分词处理包括:在对所述待匹配问题语句去停用词、去特殊符号后,使用深度学习分词器进行分词处理;在对所述候选问题语句去停用词、去特殊符号后,使用深度学习分词器进行分词处理;
所述分字处理包括:在对所述待匹配问题语句去停用词、去特殊符号后,使用深度学习分词器进行分字处理;在对所述候选问题语句去停用词、去特殊符号后,使用深度学习分词器进行分字处理。
3.如权利要求1所述的基于内部对抗机制的语义匹配方法,其特征在于,在S120中,所述分别对每一条所述分词处理后的候选问题语句和所述分词处理后的待匹配问题语句进行词向量化处理,以确定所述待匹配问题语句和所述候选问题语句基于词的句子对的句向量特征集合的过程包括:
将所述分词处理后的待匹配问题语句分别进行Pre-train Embedding处理和trainEmbedding处理后获得的词向量进行拼接,形成第一词向量矩阵;以及,将所述候选问题语句分别进行Pre-train Embedding处理和train Embedding处理后获得的词向量进行拼接,形成第二词向量矩阵;
分别对所述第一词向量矩阵以及所述第二词向量矩阵进行特征提取,以确定所述待匹配问题语句基于词的句向量特征集合和所述候选问题语句基于词的句向量特征集合;
分别对所述待匹配问题语句基于词的句向量特征集合和所述候选问题语句基于词的句向量特征集合进行降维;
将降维后的待匹配问题语句基于词的句向量特征集合和候选问题语句基于词的句向量特征集合拼接在一起,得到所述待匹配问题语句和所述候选问题语句基于词的句子对的句向量特征集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010119430.0/1.html,转载请声明来源钻瓜专利网。





