[发明专利]用于语义混淆检测的方法及系统在审
| 申请号: | 202011586654.9 | 申请日: | 2020-12-29 |
| 公开(公告)号: | CN112699226A | 公开(公告)日: | 2021-04-23 |
| 发明(设计)人: | 汪燕燕;陈述;沈艺;张兵兵;钟涛 | 申请(专利权)人: | 江苏苏宁云计算有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/30 |
| 代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 黄玉东 |
| 地址: | 210042 江苏省南*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 语义 混淆 检测 方法 系统 | ||
1.一种用于语义混淆检测的方法,其特征在于,包括:
获取对话平台的全量知识库;
对所述全量知识库中两两问句之间进行表层语义分析,识别出第一候选混淆问句对集合;
基于所述全量知识库利用句向量模型识别出第二候选混淆问句对集合;
融合所述第一候选混淆问句对集合和所述第二候选混淆问句对集合,得到目标候选混淆问句对集合;
基于所述目标候选混淆问句对集合更新所述全量知识库。
2.根据权利要求1所述的用于语义混淆检测的方法,其特征在于,对所述全量知识库中两两问句之间进行表层语义分析,识别出第一候选混淆问句对集合的方法包括:
利用多种表层语义分析方法基于对应的表层语义特征,计算所述全量知识库中两两问句之间的语义相似度,基于所述语义相似度得到与表层语义分析方法一一对应的多个表层语义混淆问句对集合;
将表层语义混淆问句对集合中属于同一知识点的问句对剔除;
利用投票机制,从所有表层语义混淆问句对集合中筛选出第一候选混淆问句对集合。
3.根据权利要求2所述的用于语义混淆检测的方法,其特征在于,所述表层语义分析方法包括jaccard相似度算法、词向量模型法、TF-IDF方法中的一种或多种。
4.根据权利要求1所述的用于语义混淆检测的方法,其特征在于,基于所述全量知识库利用句向量模型识别出第二候选混淆问句对集合的方法包括:
利用句向量模型对所有问句进行编码,构建索引库,同时获取每个问句的语义表征向量;
利用距离函数基于语义表征向量从所述索引库中查询得到任一被检测问句对应的K个混淆问句,K≥0;
将所述K个混淆问句中与被检测问句属于不同知识点的混淆问句分别与被检测问句组成混淆问句对,并存入第二候选混淆问句对集合。
5.根据权利要求4所述的用于语义混淆检测的方法,其特征在于,所述索引库包括FAISS库,所述距离函数包括余弦距离函数。
6.根据权利要求1所述的用于语义混淆检测的方法,其特征在于,根据用户需求选择取交集的方式或者取并集的方式,融合所述第一候选混淆问句对集合和所述第二候选混淆问句对集合,得到目标候选混淆问句对集合。
7.根据权利要求1-6中任一项所述的用于语义混淆检测的方法,其特征在于,还包括对知识点内边缘问句的检测,具体方法包括:
获取任一知识点的中心值,以及知识点中所有问句到所述中心值的半径;
将知识点中到所述中心值的距离大于所述半径的所有问句存储到知识点的边缘问句候选集合中;
计算边缘问句候选集中所有问句的离群因子,并将所述离群因子大于预设阈值的问句存储到知识点的边缘问句集合中;
基于知识点的边缘问句集合更新所述全量知识库。
8.根据权利要求7所述的用于语义混淆检测的方法,其特征在于,所述任一知识点的中心值为任一知识点中每个问句的特征编码的平均值;
知识点中所有问句到所述中心值的半径为知识点中所有问句到所述中心值的平均距离。
9.根据权利要求7所述的用于语义混淆检测的方法,其特征在于,基于目标候选混淆问句对集合和/或知识点的边缘问句集合更新所述全量知识库的方法包括:
将目标候选混淆问句对集合和/或知识点的边缘问句集合存储到数据库中,并展示到前端页面供用户审核;
将审核结果判定为知识点分类错误的问句移动到正确的知识点或从所述全量知识库中删除以更新所述全量知识库。
10.一种用于语义混淆检测的系统,其特征在于,包括数据获取模块、第一混淆检测模块、第二混淆检测模块、融合模块及数据反馈模块,其中,
所述数据获取模块用于获取对话平台的全量知识库;
所述第一混淆检测模块基于所述全量知识库中每一个问句的表层语义特征,识别出第一候选混淆问句对集合;
所述第二混淆检测模块基于所述全量知识库利用句向量模型识别出第二候选混淆问句对集合;
所述融合模块用于融合所述第一候选混淆问句对集合和所述第二候选混淆问句对集合,得到目标候选混淆问句对集合;
所述数据反馈模块基于所述目标候选混淆问句对集合更新所述全量知识库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏苏宁云计算有限公司,未经江苏苏宁云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011586654.9/1.html,转载请声明来源钻瓜专利网。





