[发明专利]一种语义检索方法、装置及电子设备有效
申请号: | 202011221206.9 | 申请日: | 2020-11-05 |
公开(公告)号: | CN112035730B | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 周阳;钱泓锦;刘占亮;窦志成 | 申请(专利权)人: | 北京智源人工智能研究院 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/33;G06F16/36;G06F40/232;G06F40/247;G06F40/30 |
代理公司: | 北京动力号知识产权代理有限公司 11775 | 代理人: | 梁艳;白婉露 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语义 检索 方法 装置 电子设备 | ||
本发明公开了一种语义检索方法、装置及电子设备,方法包括:接收用户发送的查询信息;对查询信息中的文本进行纠错,获得纠正文本;对纠正文本进行用户意图分析,确定所识别的用户意图的第一分值;对于简单事实问答,基于预先构建的知识图谱进行检索,获得第一候选答案集,并根据相关度确定所述第一候选答案集中的各个候选答案的第二分值;对于常见问题解答,基于预先构建的向量化FAQ问答对进行检索,获得第二候选答案集,并根据相关度确定第二候选答案集中的各个候选答案的第三分值;根据第一分值、第二分值以及第三分值对候选答案进行排序得到答案;该方法相比于基于关键词的检索能更好的满足用户查询需求。
技术领域
本发明涉及信息处理技术领域,尤其涉及一种语义检索方法、装置及电子设备。
背景技术
在互联网海量信息中,经常需要通过搜索引擎来检索自己需要的信息,然而目前搜索引擎的检索效果并不好,仍需要用户在返回的大量网页中筛选,无法满足方便快捷的检索需求。由此产生了智慧服务,使用智能化的手段将信息数字化,但依然难以挖掘数据之间的信息关联,导致很多数据信息没有得到有效利用。
在现有的搜索引擎中,大多还是以关键字匹配、PageRank、倒排索引等传统方式作为搜索方法,为了尽可能满足用户查询需求,往往会对用户查询做分词、词性识别、命名实体识别等基础的词法分析,再联合查询。虽然此种方法可以提高查询效果,但也只停留在浅层的语义解析,无法理解用户的查询意图。
在基于知识图谱的检索与问答系统中,大部分的检索与问答都是基于简单事实的查询,也就是一跳查询,涉及到较为复杂的多跳查询往往得不到很好的检索结果,甚至无法返回结果。
发明内容
本发明提供了一种语义检索方法、装置及电子设备,能够有效解决现有的检索方法无法理解用于查询意图、查询效果无法满足用户的问题。
一种语义检索方法,包括:
接收用户发送的查询信息;
对所述查询信息中的文本进行纠错,获得纠正文本;
基于问题模板库对所述纠正文本进行用户意图分析,确定所识别的用户意图的第一分值,所述用户意图包括简单事实问答和常见问题解答;
对于简单事实问答,基于预先构建的知识图谱进行检索,获得第一候选答案集,并根据相关度确定所述第一候选答案集中的各个候选答案的第二分值;
对于常见问题解答,基于预先构建的向量化FAQ问答对进行检索,获得第二候选答案集,并根据相关度确定所述第二候选答案集中的各个候选答案的第三分值;
根据所述第一分值、第二分值以及第三分值对所述候选答案进行排序得到答案。
进一步地,对所述查询信息中的文本进行纠错,获得纠正文本,包括:
采用中文分词器对所述文本进行切词,通过字粒度和词粒度进行错误检测,生成疑似错误位置候选集;
遍历所有疑似错误位置,并从预先存储的词典中查找音似和形似的词替换疑似错误位置的词,通过语言模型计算句子困惑度;
根据句子困惑度计算结果对替换结果进行排序,获得最优纠正词;
根据所述最优纠正词生成所述纠正文本。
进一步地,对于简单事实问答,基于预先构建的知识图谱进行检索,获得第一候选答案集包括:
抽取所述纠正文本中的实体信息、关系信息和属性信息,使用同义词词典将其链接到所述知识图谱中的实体、关系或属性,生成SQL查询语句;
将所述SQL查询语句填充至所抽取的对应词槽位置,执行查询得到第一候选答案集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智源人工智能研究院,未经北京智源人工智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011221206.9/2.html,转载请声明来源钻瓜专利网。