[发明专利]文档处理方法、装置、存储介质及计算机设备在审
申请号: | 202110583801.5 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113204951A | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 廖林涛;朱增 | 申请(专利权)人: | 广州文石信息科技有限公司 |
主分类号: | G06F40/189 | 分类号: | G06F40/189;G06F40/109;G06F40/191 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 陈嘉雯 |
地址: | 510000 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 处理 方法 装置 存储 介质 计算机 设备 | ||
本发明提供的文档处理方法、装置、存储介质及计算机设备,用户在阅读文档时,可以根据用户的阅读位置来加载章节列表中指定范围的字节数据,无需加载整个文档,从而使得文档的排版速度和翻页速度得到提升,并能够支持缓存较大的文档,提升用户阅读体验;而且,由于本申请中的待处理文档在建立目录与章节列表时,是按照不同的标题及标题对应的章节起止位置建立的,不同的章节之间另起一页,使得文档的排版能够有序进行,从而进一步提高用户的阅读体验。
技术领域
本发明涉及文档优化技术领域,尤其涉及一种文档处理方法、装置、存储介质及计算机设备。
背景技术
随着信息技术的发展,越来越多类型的电子产品受到大众的喜爱,如墨水屏电子书阅读器,其作为一种专门阅读电子书的设备,为用户提供了如纸质般的阅读享受,相较于其他设备而言,极大地提升了用户体验。
现有墨水屏电子书阅读器中安装有相应的阅读软件,如NeoReader,用户可登陆NeoReader,并选择相应的电子书下载并阅读;但是,用户在阅读的时候,不同的章节之间没有另起一页,导致阅读体验不佳;另外,NeoReader现有的排版引擎是针对HTML和CSS进行排版,若将TXT文档直接转为HTML,排版速度会很慢,翻页速度也很会慢,尤其是对于缓存较大的文档,无法及时加载并显示,也会导致用户的阅读体验不佳。
发明内容
本发明的目的旨在至少能解决上述的技术缺陷之一,特别是现有技术的墨水屏电子书阅读器中安装的阅读软件的阅读体验不佳的技术缺陷。
本发明提供了一种文档处理方法,所述方法包括:
扫描待处理文档中的每行文本;
基于每行文本包含的字节长度及预设标题规则,筛选作为标题的文本行,并确定各标题在所述待处理文档中的位置;
基于各标题在所述待处理文档中的位置,确定每一标题对应章节的起止位置;
根据所述标题及与所述标题对应章节的起止位置,建立与所述待处理文档对应的目录和章节列表。
可选地,所述的文档处理方法,还包括:
当用户打开所述待处理文档时,根据所述用户停留在所述待处理文档中的当前字节位置,调用所述章节列表确定待读取的字节范围;
读取所述字节范围内的字节流。
可选地,所述扫描待处理文档中的每行文本的步骤,包括:
检测待处理文档的文档编码;
依据所述文档编码扫描所述待处理文档中的每行文本。
可选地,所述依据所述文档编码扫描所述待处理文档中的每行文本的步骤,包括:
基于所述文档编码确定所述待处理文档的每行末尾字节位置;
根据每行末尾字节位置确定所述待处理文档中的每行文本。
可选地,所述基于每行文本包含的字节长度及预设标题规则,筛选作为标题的文本行的步骤,包括:
确定每行文本所对应的字节长度;
筛选字节长度不大于预设标题长度阈值的文本行进行解码;
根据预设标题规则判断解码后得到的各行字符串是否为标题;
若是,则将所述字符串对应的文本行作为标题。
可选地,所述根据预设标题规则判断解码后得到的各行字符串是否为标题的步骤之后,还包括:
若其中一行字符串不是标题,则依据预设章节长度阈值,将所述字符串的相邻两侧作为标题的字符串进行划分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州文石信息科技有限公司,未经广州文石信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110583801.5/2.html,转载请声明来源钻瓜专利网。