[发明专利]文本存储管理与检索方法及装置在审
申请号: | 202111387757.7 | 申请日: | 2021-11-22 |
公开(公告)号: | CN114168798A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 姚昊;刘忠良;任宇阳;李强;张永兴;史亚琛;陈叶俊;楼宝川;肖薇;张立侠 | 申请(专利权)人: | 中核核电运行管理有限公司 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/903;G06F40/126 |
代理公司: | 核工业专利中心 11007 | 代理人: | 王朋 |
地址: | 314300 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 存储 管理 检索 方法 装置 | ||
1.一种文本存储管理与检索方法,其特征在于,所述方法包括:
存储接收到的待处理文档,并确定所述待处理文档的存储地址;
对所述待处理文档进行解析,得到分析结果文档、编码字符统计文档、中间生成文档,将分析结果文档、编码字符统计文档、中间生成文档存储至数据库,并分别确定分析结果文档、编码字符统计文档、中间生成文档各自的存储地址;
将所述待处理文档的存储地址、所述分析结果文档的存储地址、所述编码字符统计文档的存储地址、所述中间生成文档的存储地址作为一条记录存入数据库,并确定所述记录的唯一标识;
根据所述编码字符统计文档,确定所述编码字符统计文档的数据,所述数据包括所述编码字符统计文档的唯一标识、名称、数据库主键ID、所述编码字符统计文档中包含的编码字符串和每个编码字符串在所述待处理文档中的出现次数将编码字符串排序,其中,每个编码字符串和每个编码字符串在所述待处理文档中的出现次数的以键值对形式存储,键为该编码字符串,值为该编码字符串出现的次数;
根据述编码字符统计文档的数据,设计四元组信息,利用TF-IWF方法计算关键词的重要程度,构建基于链表的索引结构,然后将有序链表中部分索引值提取出来,构建基于跳表的分级索引;
根据关键字和所述分级索引,返回查询响应结果。
2.根据权利要求1所述的方法,其特征在于,根据关键字和所述分级索引,返回查询响应结果,包括:
所述若关键字仅有一个,根据索引查询返回响应结果;
若关键字为多个,查询多个关键词获得相应倒排索引项链表,根据以上数据构建Bitmap数据结构,求交集获得目标文档,返回响应结果。
3.根据权利要求1所述的方法,其特征在于,存储接收到的待处理文档,并确定所述待处理文档的存储地址,包括:
将待处理文档转换为字节流数据,连接到文档存储服务器,根据文档类型上传到文档存储服务器,并且返回源文档存储地址。
4.根据权利要求1所述的方法,其特征在于,对所述待处理文档进行解析,得到分析结果文档、编码字符统计文档、中间生成文档,将分析结果文档、编码字符统计文档、中间生成文档存储至数据库,并分别确定分析结果文档、编码字符统计文档、中间生成文档各自的存储地,包括:
将所述待处理文档的字节输入流上传至智能文档解析与识别系统;
根据编码集数据库的编码字符串,通过识别算法对文档进行识别解析,生成分析结果文档、编码字符统计文档、中间生成文档;
将分析结果文档、编码字符统计文档、中间生成文档采用多线程方式分别上传到文档存储系统,获得分析结果文档、编码字符统计文档、中间生成文档各自的存储地。
5.一种文本存储管理与检索装置,其特征在于,所述装置包括:
存储模块,用于存储接收到的待处理文档,并确定所述待处理文档的存储地址;
解析模块,用于对所述待处理文档进行解析,得到分析结果文档、编码字符统计文档、中间生成文档,将分析结果文档、编码字符统计文档、中间生成文档存储至数据库,并分别确定分析结果文档、编码字符统计文档、中间生成文档各自的存储地址;
第一标识模块,用于将所述待处理文档的存储地址、所述分析结果文档的存储地址、所述编码字符统计文档的存储地址、所述中间生成文档的存储地址作为一条记录存入数据库,并确定所述记录的唯一标识;
第二标识模块,用于根据所述编码字符统计文档,确定所述编码字符统计文档的数据,所述数据包括所述编码字符统计文档的唯一标识、名称、数据库主键ID、所述编码字符统计文档中包含的编码字符串和每个编码字符串在所述待处理文档中的出现次数将编码字符串排序,其中,每个编码字符串和每个编码字符串在所述待处理文档中的出现次数的以键值对形式存储,键为该编码字符串,值为该编码字符串出现的次数;
索引模块,用于根据述编码字符统计文档的数据,设计四元组信息,利用TF-IWF装置计算关键词的重要程度,构建基于链表的索引结构,然后将有序链表中部分索引值提取出来,构建基于跳表的分级索引;
返回模块,用于根据关键字和所述分级索引,返回查询响应结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中核核电运行管理有限公司,未经中核核电运行管理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111387757.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:字符串匹配方法及装置
- 下一篇:基于正则表达式的文档字符串编码识别方法及装置