[发明专利]一种智能检索方法、装置和计算机可读存储介质在审
申请号: | 201810549831.2 | 申请日: | 2018-05-31 |
公开(公告)号: | CN108763529A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 张民;董孝政 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06N5/02 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 215137 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识库 文档 题目 语句 计算机可读存储介质 文档信息 智能检索 答案 存储 查找 生成模型 索引规则 分句 预设 检索 | ||
本发明实施例公开了一种智能检索方法、装置和计算机可读存储介质,对获取的文档信息进行分句处理,以得到多个源语句;利用训练后的问题生成模型,对各源语句进行处理,得到对应的文档题目;根据源语句及其对应的文档题目,建立文档问答对,并将文档问答对存储于知识库中。按照预设的索引规则,对各问答对进行处理,得到对应的多个语汇单元;当出现待处理的题目时,依据各语汇单元,便可以快速的从知识库中查找出与待处理题目相对应的答案。由于知识库中存储有依据文档信息生成的问答对,其答案的准确性可以得到有效的保障,使得依据该知识库查找出的答案更容易满足用户的需求。并且通过建立语汇单元,有效的提升了检索的效率。
技术领域
本发明涉及信息检索技术领域,特别是涉及一种智能检索方法、装置和计算机可读存储介质。
背景技术
随着网络的普及,网络上的信息资源越来越丰富。人们遇到问题,经常会通过网络检索的方式,寻找问题的答案。
传统问答系统的知识库的数据源来自于网上的问题和回答,有些答案较为随意,其准确性得不到保障。并且知识库中缺少基于文档作为答案的问答对,使得知识库中包含的数据资源相对有限。依据该知识库进行问题的检索时,得到的答案相对有限,用户可能无法得到所需的答案,导致答案检索的准确率较低。
可见,如何快速、准确的获取检索结果,是本领域技术人员亟待解决的问题。
发明内容
本发明实施例的目的是提供一种智能检索方法、装置和计算机可读存储介质,可以快速、准确的获取检索结果。
为解决上述技术问题,本发明实施例提供一种智能检索方法,包括:
对获取的文档信息进行分句处理,以得到多个源语句;
利用训练后的问题生成模型,对各所述源语句进行处理,得到对应的文档题目;
根据所述源语句及其对应的文档题目,建立文档问答对,并将所述文档问答对存储于知识库中;其中,所述知识库中还包括有历史问答对;
按照预设的索引规则,对所述知识库中包含的各问答对进行处理,得到对应的多个语汇单元;
依据各所述语汇单元,从所述知识库中查找与待处理题目相对应的答案。
可选的,所述问题生成模型的训练过程包括:
获取历史问答对,并将所述历史问答对存储于所述知识库中;
利用所述历史问答对训练所述问题生成模型。
可选的,所述依据各所述语汇单元,从所述知识库中查找与待处理题目相对应的答案包括:
提取待处理题目中的关键词;
从预先建立的各所述语汇单元中查询与所述关键词相对应的目标语汇单元;
从所述知识库中获取所述目标语汇单元所对应的候选题目;
利用RankSVM模型,对所述候选题目进行相似度排序;
选取相似度分数最高的候选题目作为目标题目;并将所述目标题目对应的答案作为所述待处理题目的答案。
可选的,所述从预先建立的各所述语汇单元中查询与所述关键词相对应的目标语汇单元包括:
判断各语汇单元中是否包含有与所述关键词相匹配的词;
若是,则将所述语汇单元作为初始语汇单元;
依据各所述初始语汇单元中与所述关键词相匹配的词的个数,确定出各所述初始语汇单元对应的关键词分数;
将关键词分数大于预设分数值的初始语汇单元作为目标语汇单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810549831.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种测绘档案的管理方法及装置
- 下一篇:一种数据访问方法、装置及电子设备