[发明专利]基于内部对抗机制的语义匹配方法、装置及存储介质有效
申请号: | 202010119430.0 | 申请日: | 2020-02-26 |
公开(公告)号: | CN111427995B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 骆迅;王科强;郝新东 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F40/211;G06F40/289;G06F40/30;G06N3/0464;G06N3/08 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 袁文婷;王迎 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 内部 对抗 机制 语义 匹配 方法 装置 存储 介质 | ||
本发明提供一种基于内部对抗机制的语义匹配方法、装置及存储介质,其中方法包括如下步骤:对待匹配问题语句和候选问题语句分别进行分词处理和分字处理;候选问题语句分别与待匹配问题语句计算相似度;将候选问题语句与待匹配问题语句之间的相似度排序,设定名次内的候选问题语句,作为相似候选问题语句;相似候选问题语句分别与待匹配问题语句计算相似度;将相似候选问题语句与待匹配问题语句之间的相似度设定名次内的排序结果,和候选问题语句与待匹配问题语句之间的相似度设定名次内的排序结果,做为皮尔逊相关系数计算公式的两个变量,根据相关系数确定匹配结果。本发明能够有效改善语义匹配质量和精度。
技术领域
本发明涉及人工智能技术领域,更为具体地,涉及一种基于内部对抗机制的语义匹配方法。
背景技术
人机对话目前是nlp(自然语言处理)领域一个非常热门的应用场景。从传统的智能AI(人工智能)客服到语音聊天机器人等等,其核心技术都是语义识别、语义理解和语义匹配。
目前,市面上大部分人机对话系统集中在金融、客服、娱乐等领域,而医疗领域的人机问答相对来说仍处于起步阶段。一方面,是因为医疗场景更加复杂,涉及专业术语较多,AI难以完全理解患者的诉求。另一方面,由于医疗场景容错性低,相应的对AI的识别准确度提出了更高的要求。市面上已有一些患教问答系统存在,例如拇指医生、康夫子。不过,这些系统普遍存在一些问题,比如只能回答一些简单问题,对于复杂诉求无能为力,答非所问等等。究其原因,主要是当前语义匹配模型普遍存在鲁棒性差,迁移学习效果不够好等缺点。
患教问答系统的核心模块是语义召回模块,主要作用是根据患者的提问去答案库寻找最接近患者诉求的答案并做出回答。因此,患教问答系统的性能好坏主要取决于语义召回模块是否精准。当前,语义召回模块大部分都是基于深度学习网络构成,例如CNN(卷积神经网络)、LSTM(Long Short-Term Memory,长短期记忆网络)、ESIM(Enhanced-LSTM,强化长短期记忆网络)、Decomposable Attention(可分解注意力机制网络)、Multihead(Multi-head attention,多头注意力机制网络)等等。这些深度学习网络各有各的优缺点,也适用于不同的场景。不过,总的来说,这些模型均会出现过拟合、受数据质量扰动性大等缺点。
发明内容
鉴于上述问题,本发明的目的是提供一种基于内部对抗机制的语义匹配方法。在原有问题召回模块的基础上加入了一个价值评估网络,该网络会对每次问题召回模块结果的好坏进行一次评估,并反馈给semantic matching(语义匹配)网络(即问题召回模块,采用深度学习模型构建),作为新的训练数据,重新进行训练并输出给价值评估网络,直到价值评估网络的评估分数达到阈值,才终止对抗。可以提高语义匹配系统的鲁棒性和迁移学习效果,改善问题召回质量和精度。
根据本发明的一个方面,提供了一种基于内部对抗机制的语义匹配方法,包括如下步骤:
S110:对待匹配问题语句和候选问题语句分别进行分词处理和分字处理;
S120:分别对每一条所述分词处理后的候选问题语句和所述分词处理后的待匹配问题语句进行词向量化处理,以确定所述待匹配问题语句和所述候选问题语句基于词的句子对的句向量特征集合;以及,分别对每一条所述分字处理后的候选问题语句和所述分字处理后的待匹配问题语句进行字向量化处理,以确定所述待匹配问题语句和所述候选问题语句基于字的句子对的句向量特征集合;其中,所述候选问题语句为通过搜索引擎在指定数据库中检索出的与待匹配问题语句具有设定相似度的至少一个问题语句;
S130:将所述基于词的句子对的句向量特征集合和所述基于字的句子对的句向量特征集合进行拼接,确定所述候选问题语句与所述待匹配问题语句之间的相似度;
S140:将所述候选问题语句与所述待匹配问题语句之间的相似度按照由高向低的顺序排序,选出所述相似度排序在设定名次内的候选问题语句作为相似候选问题语句;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010119430.0/2.html,转载请声明来源钻瓜专利网。