[发明专利]一种文档处理方法及装置有效
申请号: | 201911382771.0 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111046131B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 郑永升;石磊;请求不公布姓名 | 申请(专利权)人: | 杭州依图医疗技术有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/383 |
代理公司: | 北京天方智力知识产权代理有限公司 11719 | 代理人: | 路远 |
地址: | 310012 浙江省杭州市西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 处理 方法 装置 | ||
本申请公开了一种文档处理方法及装置,用于提升文档内容的检索速度,降低系统资源的消耗。该文档处理方法包括:确定与待处理文档的章节名称相关的信息;根据与待处理文档的章节名称相关的信息获取与所述章节名称对应的内容;将与所述章节名称对应的内容存储到章节内容表中;将所述待处理文档的章节名称存储到章节名称表中,其中,所述章节名称表中的章节名称与所述章节内容表中对应的内容索引相同。采用本申请所公开的方法,提升了文档内容的检索速度,降低了系统资源的消耗。
技术领域
本申请涉及计算机领域,特别涉及一种文档处理方法及装置。
背景技术
随着科技的发展,无纸化办公已经由概念逐渐应用到多个行业领域中。文档是无纸化办公过程中不可缺少的一部分,文档通常是指电子文档,其作为信息的载体,在社会生活中占有着十分重要的地位。
有时候,出于研究目的,会将大量同类文档进行收集整合,然后将文档内容整合到同一张数据表中,但是,这样的存储方式,数据表中的数据量会变得非常庞大。既包含了文档内的章节,也包含了各个章节的内容,如果要对某些内容进行检索,则需要在该数据表进行全文遍历,由于数据量庞大,因此,检索速度缓慢,且需要消耗大量的系统资源,因此,如何提升检索速度,降低系统资源的消耗,是一亟待解决的技术问题。
发明内容
本申请实施例的目的在于提供一种文档处理方法及装置,用于提升文档内容的检索速度,降低系统资源的消耗。
为了解决上述技术问题,本申请的实施例采用了如下技术方案:一种文档处理方法,包括:
确定与待处理文档的章节名称相关的信息;
根据与待处理文档的章节名称相关的信息获取与所述章节名称对应的内容;
将与所述章节名称对应的内容存储到章节内容表中;
将所述待处理文档的章节名称存储到章节名称表中,其中,所述章节名称表中的章节名称与所述章节内容表中对应的内容索引相同。
本发明的有益效果在于:将章节名称对应的内容和章节名称分别存储到章节内容表和章节名称表,从而,在检索章节名称对应的内容时,可以先通过章节名称表得到章节名称对应的内容的索引,再通过该索引检索章节内容表,因此,在整个检索过程中,只需要遍历章节名称表,以及遍历章节内容表中的索引就可以检索到章节名称对应的内容,而无需遍历数据量最大的章节名称对应的内容这部分数据,减少了遍历所需的时间,提升了文档内容的检索速度,降低了系统资源的消耗。
在一个实施例中,在确定所述待处理文档的章节名称之前,所述方法还包括:
判断所述待处理的文档是否为预设格式;
当所述待处理的文档不是预设格式时,将所述待处理的文档转换为预设格式。
本实施例的有益效果在于:当所述待处理的文档不是预设格式时,将所述待处理的文档转换为预设格式,从而使文档结构统一化,便于后续识别处理。
在一个实施例中,所述确定与待处理文档的章节名称相关的信息,包括:
获取预存储的章节名称字典;
根据所述预存储的章节名称字典与所述待处理文档中的章节名称进行匹配;
根据匹配结果确定所述待处理文档的章节名称。
在一个实施例中,所述方法还包括:
将所述章节内容表与所述章节名称表对应存储;其中,所述章节内容表中包含章节内容和对应的索引,所述章节名称表中包含所述章节的名称和对应的索引,所述章节内容表和所述章节名称表都为动态可扩展架构。
在一个实施例中,在将所述章节内容表与所述章节名称表对应存储之后,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州依图医疗技术有限公司,未经杭州依图医疗技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911382771.0/2.html,转载请声明来源钻瓜专利网。