[发明专利]一种使用反向索引实现书籍筛选的方法及工具在审

申请号：	202010127339.3	申请日：	2020-02-28
公开（公告）号：	CN111368022A	公开（公告）日：	2020-07-03
发明（设计）人：	王昭宁;刘津;许晓笛;刘金伟;张哲铭	申请（专利权）人：	山东汇贸电子口岸有限公司
主分类号：	G06F16/31	分类号：	G06F16/31;G06F16/332
代理公司：	济南信达专利事务所有限公司 37100	代理人：	冯春连
地址：	250100 山东省济南市***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种使用反向索引实现书籍筛选方法工具
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种使用反向索引实现书籍筛选的方法，涉及数据处理技术领域，该方法基于Python反向索引，实现过程包括：步骤1、根据书籍名称进行映射，并将映射得到的关键词存储于第一集合；步骤2、结合书籍名称和第一集合包含的关键词，再次映射得到关键词并存储于第二集合，第二集合的个数等于第一集合所包含的关键词；步骤3、用户查找书籍时，输入查找书籍的名称，通过执行步骤1、2得到指定书籍的多个第二集合，通过求取多个第二集合的交集，筛选得到所要查找书籍的详细信息。本发明还公开一种使用反向索引实现书籍筛选的工具，其通过采集模块、映射模块一、映射模块二、输入模块、合并输出模块完成书籍筛选。本方法及工具具有高效快捷的优点。

技术领域

本发明涉及数据处理，具体的说是一种使用反向索引实现书籍筛选的方法及工具。

背景技术

正常的索引一般是指关系型数据库里的索引。把不同的数据存放到不同的字段中。如果要实现google那种搜索，就需要与一条记录的多个字段进行比对，需要全表扫描，如果数据量比较大的话，性能就很低。

现有的索引技术有正向索引和反向索引两种。

所谓正向索引就是在一个文件里存储着一个文件ID，文件的内容是一个集合，里面存着关于这个ID含义的所有关键词，每个关键词中记录着属于它的一些属性，比如像出现次数等等。当用户在搜索的时候输入“数据库”，系统就会根据这个词遍历所有文件中的关键词。然后根据打分模型，排列出用户想看到的数据。

在存储的数据量很大的情况下，如果去遍历所有的文件，所耗费的效率无疑是巨大的。这时候就需要使用反向索引。反向索引的原理是把文件ID对应到关键词的映射转换为关键词到文件ID的映射，每个关键词都对应着一系列的文件，这些文件中都出现这个关键词。简单来说就是每个关键词构建一个集合，存储所有它相关的关键词和文件ID。

发明内容

本发明针对目前技术发展的需求和不足之处，提供一种使用反向索引实现书籍筛选的方法及工具，主要目的是为书店进行高效率的书籍检索。技术上来说，比起正向索引检索速度更快，可以更好的保证响应阈值。

首先，本发明提供一种使用反向索引实现书籍筛选的方法，解决上述技术问题采用的技术方案如下：

一种使用反向索引实现书籍筛选的方法，该方法基于Python反向索引，实现过程包括：

步骤1、根据书籍名称进行映射，并将映射得到的关键词存储于第一集合；

步骤2、结合书籍名称和第一集合包含的关键词，再次映射得到关键词并存储于第二集合，第二集合的个数等于第一集合所包含的关键词；

步骤3、用户查找书籍时，输入查找书籍的名称，通过执行步骤1、2得到指定书籍的多个第二集合，通过求取多个第二集合的交集，筛选得到所要查找书籍的详细信息。

执行步骤1时，根据书籍名称映射得到的关键词依次为书籍作者、书籍出版社、书籍译者。

步骤2的具体实现步骤包括：

步骤2.1、将书籍名称拆分为至少一个词语；

步骤2.2、将书籍名称拆分得到的至少一个词语与第一集合的关键词“书籍作者”进行映射，得到第二集合a；

步骤2.3、将书籍名称拆分得到的至少一个词语与第一集合的关键词“书籍出版社”进行映射，得到第二集合b；