[发明专利]一种信息检索方法及装置有效
申请号: | 201910278425.1 | 申请日: | 2019-04-09 |
公开(公告)号: | CN110008407B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 张永欢 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/951;G06F40/284;G06F40/289;G06F16/31;G06F16/33 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王康;解婷婷 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息 检索 方法 装置 | ||
1.一种信息检索方法,其特征在于,包括:
在接收到检索请求后,生成检索词库;其中,所述检索词库中包含将所述检索请求中包含的原始检索信息进行分词后的一个或多个检索词;
从信息库中查询符合所述检索词的索引信息,生成索引库;其中,所述索引库中包含多条索引信息;
计算索引库中各索引信息相比检索词的词频-逆文档频率TF-IDF相关度;
根据所述TF-IDF相关度确定索引库中符合预设数量的索引信息,将所确定的所述索引信息对应所述信息库中的信息作为与所述检索请求对应的检索结果,
所述计算索引库中各索引信息相比检索词的词频-逆文档频率TF-IDF相关度,包括:
根据所述索引信息中出现的检索词的词频与逆文档频率之和,以及所述检索词在文档中的位置计算所述索引信息相比检索词的TF-IDF相关度,
利用如下公式计算所述索引信息相比检索词的TF-IDF相关度:
其中,IDFi表示所述索引信息中所包含的第i个检索词的逆文档频率,TFi表示所述索引信息中所包含的第i个检索词的词频,TN表示所述索引信息中所包含的检索词的总数,disti表示所述索引信息中所包含的第i个检索词与第i-1个检索词之间在一文档中的距离,当所述第i个检索词在所述文档中的位置di大于所述第i-1个检索词在所述文档中的位置di-1时,disti=di-di-1,当所述第i个检索词在所述文档中的位置di小于所述第i-1个检索词在所述文档中的位置di-1时,disti=2(di-1-di)。
2.根据权利要求1所述的方法,其特征在于,其中,对于所述索引信息中所包含的堆砌3次以上的检索词,对应所述检索词的词频与逆文档频率之和采取降权一半处理。
3.根据权利要求1~2任一项所述的方法,其特征在于,所述根据所述TF-IDF相关度确定索引库中符合预设数量的索引信息,包括:
利用最大堆排序法将所述索引库中各索引信息相比检索词的TF-IDF相关度进行排序,按数值从大到小的顺序选取前面符合预设数量的TF-IDF相关度所对应的索引信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910278425.1/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置