[发明专利]知识检索方法及装置、存储介质、服务器有效
| 申请号: | 201910510211.2 | 申请日: | 2019-06-13 |
| 公开(公告)号: | CN111339239B | 公开(公告)日: | 2021-01-05 |
| 发明(设计)人: | 胡崇海;熊友根;王洪涛 | 申请(专利权)人: | 海通证券股份有限公司 |
| 主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杜金玲;吴敏 |
| 地址: | 200001 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 知识 检索 方法 装置 存储 介质 服务器 | ||
1.一种知识检索方法,其特征在于,适用于在100万条以下的小语料场景下的文本检索;包括:
接收用户的输入信息;
根据所述输入信息对所述用户的检索意图进行识别,以得到检索意图点,所述检索意图点是根据知识库中的知识确定的;所述知识库包括多个知识,所述知识是通过对知识元库中的知识元进行词语划分得到多个词语块,并对所述多个词语块,利用词窗计算每个词语块的互信息和左右信息熵,并至少根据计算结果对所述多个词语块进行清洗所得到的;
将所述用户的各个检索意图点进行重组融合,以得到符合所述用户的检索意图的检索意图点组合;
基于所述知识元库检索所述检索意图点组合,并输出检索结果;所述知识元库是由多个知识元构建的;每个知识元是对知识源进行段落和/或条款分割得到的。
2.根据权利要求1所述的知识检索方法,其特征在于,所述将所述用户的各个检索意图点进行重组融合包括:
基于图论或决策树算法,将所述用户的各个检索意图点进行重组融合。
3.根据权利要求1所述的知识检索方法,其特征在于,所述根据所述输入信息对所述用户的检索意图进行识别包括:
根据词向量以及词频逆文本频率指数,对所述输入信息进行分词,以根据所述输入信息的分词结果对所述用户的检索意图进行识别。
4.根据权利要求1所述的检索方法,其特征在于,所述输出检索结果包括:按照对所述检索意图点组合的匹配度从高到低的顺序,输出所述检索结果;或者,
按照所述检索结果的发生时间从新到旧的顺序,输出所述检索结果。
5.根据权利要求1所述的知识检索方法,其特征在于,所述至少根据计算结果对所述多个词语块进行清洗,以得到所述知识包括:
按照所述计算结果从大到小的顺序对所述多个词语块进行排序,将排序在前的预设数量个词语块作为待清洗知识;
基于所述知识库中的知识对所述待清洗知识进行检查与剔除处理,以得到至少一个所述知识。
6.一种知识检索装置,其特征在于,适用于在100万条以下的小语料场景下的文本检索;包括:
接收模块,适于接收用户的输入信息;
识别模块,适于根据所述输入信息对所述用户的检索意图进行识别,以得到检索意图点,所述检索意图点是根据知识库中的知识确定的;所述知识库包括多个知识,所述知识是通过对知识元库中的知识元进行词语划分得到多个词语块,并对所述多个词语块,利用词窗计算每个词语块的互信息和左右信息熵,并至少根据计算结果对所述多个词语块进行清洗所得到的;
融合模块,适于将所述用户的各个检索意图点进行重组融合,以得到符合所述用户的检索意图的检索意图点组合;
检索模块,适于基于所述知识元库检索所述检索意图点组合,并输出检索结果;所述知识元库是由多个知识元构建的;每个知识元是对知识源进行段落和/或条款分割得到的。
7.一种存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至5任一项所述的方法的步骤。
8.一种服务器,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至5任一项所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海通证券股份有限公司,未经海通证券股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910510211.2/1.html,转载请声明来源钻瓜专利网。





