[发明专利]文本存储管理与检索方法及装置在审
申请号: | 202111387757.7 | 申请日: | 2021-11-22 |
公开(公告)号: | CN114168798A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 姚昊;刘忠良;任宇阳;李强;张永兴;史亚琛;陈叶俊;楼宝川;肖薇;张立侠 | 申请(专利权)人: | 中核核电运行管理有限公司 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/903;G06F40/126 |
代理公司: | 核工业专利中心 11007 | 代理人: | 王朋 |
地址: | 314300 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 存储 管理 检索 方法 装置 | ||
本公开属于核电技术领域,具体涉及一种文本存储管理与检索方法及装置。本公开运用了分布式文档系统存储核电厂多堆型多类别海量非结构化文档以及对应的分析结果文档,并将文档存储地址作为文档映射存储在关系型数据库中,解决了海量非结构化文档存储问题,利用结果文档的分析结果,设计了基于跳表的分级索引、存储数据快照的四元组信息,使用TF‑IWF方法针对性的对核电厂多堆型多类别的非结构化文档设计了检索结果排序方式的重要指标,相比使用现有的检索引擎架构,本发明更具有轻型、快速以及针对性的优点,因而具有更强的实用性。
技术领域
本发明属于核电技术领域,具体涉及一种文本存储管理与检索方法及装置。
背景技术
随着网络以及相关技术的发展与成熟,人们已经进入到信息量极为丰富的时代。鉴于电厂相关设备相关受控技术文档的数量极为庞大、文档内容类别和格式繁杂,提高用户检索和查阅技术文档以及相关分析文档的速度,如何做到对庞大技术文档中进行快速检索,获取到用户想要的文档是亟需解决的一大问题。
发明内容
为克服相关技术中存在的问题,提供了一种文本存储管理与检索方法及装置。
根据本公开实施例的一方面,提供一种文本存储管理与检索方法,所述方法包括:
存储接收到的待处理文档,并确定所述待处理文档的存储地址;
对所述待处理文档进行解析,得到分析结果文档、编码字符统计文档、中间生成文档,将分析结果文档、编码字符统计文档、中间生成文档存储至数据库,并分别确定分析结果文档、编码字符统计文档、中间生成文档各自的存储地址;
将所述待处理文档的存储地址、所述分析结果文档的存储地址、所述编码字符统计文档的存储地址、所述中间生成文档的存储地址作为一条记录存入数据库,并确定所述记录的唯一标识;
根据所述编码字符统计文档,确定所述编码字符统计文档的数据,所述数据包括所述编码字符统计文档的唯一标识、名称、数据库主键ID、所述编码字符统计文档中包含的编码字符串和每个编码字符串在所述待处理文档中的出现次数将编码字符串排序,其中,每个编码字符串和每个编码字符串在所述待处理文档中的出现次数的以键值对形式存储,键为该编码字符串,值为该编码字符串出现的次数;
根据述编码字符统计文档的数据,设计四元组信息,利用TF-IWF方法计算关键词的重要程度,构建基于链表的索引结构,然后将有序链表中部分索引值提取出来,构建基于跳表的分级索引;
根据关键字和所述分级索引,返回查询响应结果。
在一种可能的实现方式中,根据关键字和所述分级索引,返回查询响应结果,包括:
所述若关键字仅有一个,根据索引查询返回响应结果;
若关键字为多个,查询多个关键词获得相应倒排索引项链表,根据以上数据构建Bitmap数据结构,求交集获得目标文档,返回响应结果。
在一种可能的实现方式中,存储接收到的待处理文档,并确定所述待处理文档的存储地址,包括:
将待处理文档转换为字节流数据,连接到文档存储服务器,根据文档类型上传到文档存储服务器,并且返回源文档存储地址。
在一种可能的实现方式中,对所述待处理文档进行解析,得到分析结果文档、编码字符统计文档、中间生成文档,将分析结果文档、编码字符统计文档、中间生成文档存储至数据库,并分别确定分析结果文档、编码字符统计文档、中间生成文档各自的存储地,包括:
将所述待处理文档的字节输入流上传至智能文档解析与识别系统;
根据编码集数据库的编码字符串,通过识别算法对文档进行识别解析,生成分析结果文档、编码字符统计文档、中间生成文档;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中核核电运行管理有限公司,未经中核核电运行管理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111387757.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:字符串匹配方法及装置
- 下一篇:基于正则表达式的文档字符串编码识别方法及装置