[发明专利]一种语义检索方法、装置及电子设备有效
| 申请号: | 202011221206.9 | 申请日: | 2020-11-05 |
| 公开(公告)号: | CN112035730B | 公开(公告)日: | 2021-02-02 |
| 发明(设计)人: | 周阳;钱泓锦;刘占亮;窦志成 | 申请(专利权)人: | 北京智源人工智能研究院 |
| 主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/33;G06F16/36;G06F40/232;G06F40/247;G06F40/30 |
| 代理公司: | 北京动力号知识产权代理有限公司 11775 | 代理人: | 梁艳;白婉露 |
| 地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语义 检索 方法 装置 电子设备 | ||
1.一种语义检索方法,其特征在于,包括:
接收用户发送的查询信息;
对所述查询信息中的文本进行纠错,获得纠正文本;
基于问题模板库对所述纠正文本进行用户意图分析,确定所识别的用户意图的第一分值,所述用户意图包括简单事实问答和常见问题解答;
对于简单事实问答,基于预先构建的知识图谱进行检索,获得第一候选答案集,并根据相关度确定所述第一候选答案集中的各个候选答案的第二分值;
对于常见问题解答,基于预先构建的向量化FAQ问答对进行检索,获得第二候选答案集,并根据相关度确定所述第二候选答案集中的各个候选答案的第三分值;
根据所述第一分值、第二分值以及第三分值对所述候选答案进行排序得到答案;
所述对所述查询信息中的文本进行纠错,获得纠正文本,包括:
采用中文分词器对所述文本进行切词,通过字粒度和词粒度进行错误检测,生成疑似错误位置候选集;
遍历所有疑似错误位置,并从预先存储的词典中查找音似和形似的词替换疑似错误位置的词,通过语言模型计算句子困惑度;
根据句子困惑度计算结果对替换结果进行排序,获得最优纠正词;
根据所述最优纠正词生成所述纠正文本;
所述根据所述第一分值、第二分值以及第三分值对所述候选答案进行排序得到答案包括:
对所述简单事实问答的第一分值和第二分值加权求和,得到第一候选答案集中的各个候选答案的第四分值;
对所述常见问题解答的第一分值和第三分值加权求和,得到第二候选答案集中的各个候选答案的第五分值;
根据第四分值和第五分值对全部候选答案进行排序,选择排序最高的答案;
根据所选择的答案和回答模板生成回答反馈给用户。
2.根据权利要求1所述的方法,其特征在于,对于简单事实问答,基于预先构建的知识图谱进行检索,获得第一候选答案集包括:
抽取所述纠正文本中的实体信息、关系信息和属性信息,使用同义词词典将其链接到所述知识图谱中的实体、关系或属性,生成SQL查询语句;
将所述SQL查询语句填充至所抽取的对应词槽位置,执行查询得到第一候选答案集。
3.根据权利要求2所述的方法,其特征在于,对于常见问题解答,基于预先构建的向量化FAQ问答对进行检索,获得第二候选答案集包括:
将所述纠正文本进行文本向量化,从所述向量化FAQ问答对中查找相似向量,获得对应的答案,生成第二候选答案集。
4. 根据权利要求3所述的方法,其特征在于,从所述向量化FAQ问答对中查找相似向量,包括:
计算向量化的所述纠正文本与所述向量化FAQ问答对中问题的相似度,返回相似度最高的问题所对应的答案;和/或
计算向量化的所述纠正文本与所述向量化FAQ问答对中答案的相似度,返回相似度最高的答案。
5.根据权利要求1所述的方法,其特征在于,所述问题模板库是按照下述方式预先构建的:
采集历史的用户查询信息,根据所述用户查询信息构建所述问题模板库;
所述向量化FAQ问答对是按照下述方式预先构建的:
收集用户常见问题并制作标准答案,将所述常见问题和所述标准答案进行向量化,获得所述向量化FAQ问答对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智源人工智能研究院,未经北京智源人工智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011221206.9/1.html,转载请声明来源钻瓜专利网。





