[发明专利]一种准确识别文档目录并展示目录的方法及装置在审
申请号: | 202210724595.X | 申请日: | 2022-06-24 |
公开(公告)号: | CN115099187A | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 邓斌 | 申请(专利权)人: | 珠海豹好玩科技有限公司 |
主分类号: | G06F40/106 | 分类号: | G06F40/106 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
地址: | 519031 广东省珠海市横琴新*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 准确 识别 文档 目录 展示 方法 装置 | ||
1.一种准确识别文档目录并展示目录的方法,其特征在于,包括:
遍历目标文档,获取所述目标文档中的目录特征;
根据预设计分规则,获得所述目录特征的特征值;
比较所述特征值与第一预设阈值,确定所述目标文档中是否存在目录;
若存在目录,则通过所述目标文档中的第一页面呈现给用户。
2.根据权利要求1所述的方法,其特征在于,所述目录特征包括文字特征和/或格式特征;
所述遍历目标文档,获取所述目标文档中的目录特征,包括:
遍历目标文档,获取所述目标文档中的文字特征和/或格式特征;
所述根据预设计分规则,获得所述目录特征的特征值,包括:
根据预设的文字特征与特征值的对应关系和/或预设的格式特征与特征值的对应关系,获得所述文字特征的第一总特征值和/或所述格式特征的第二总特征值;
所述比较所述特征值与第一预设阈值,确定所述目标文档中是否存在目录,包括:
比较所述文字特征的第一总特征值或所述格式特征的第二总特征值与第一预设阈值进行比较,确定所述目标文档中是否存在目录;或,
比较所述文字特征的第一总特征值和所述格式特征的第二总特征值相加,得到第三总特征值;
将所述第三总特征值与第一预设阈值进行比较,确定所述目标文档中是否存在目录。
3.根据权利要求2所述的方法,其特征在于,所述目录特征为文字特征;所述文字特征包括使用各语种表达的与“目录”具有相同含义的目录关键字、粗体文字和/或章节文字;
所述遍历目标文档,获取所述目标文档中的文字特征,包括:
遍历目标文档,获取所述目标文档中的所述目录关键字、所述粗体文字和/或所述章节文字;
所述根据预设的文字特征与特征值的对应关系,获取所述文字特征的第一总特征值,包括:
根据预设的文字特征与特征值的对应关系,获取所述目录关键字的第一特征值、所述粗体文字的第二特征值和/或所述章节文字的第三特征值;
将所述第一特征值、所述第二特征值和/或所述第三特征值相加,得到第一总特征值。
4.根据权利要求3所述的方法,其特征在于,所述根据预设的文字特征与特征值的对应关系,获取所述粗体文字的第二特征值,包括:
根据单个粗体文字与特征值的对应关系,将各个所述粗体文字的特征值相加,得到第二特征值。
5.根据权利要求3所述的方法,其特征在于,所述根据预设的文字特征与特征值的对应关系,获取所述章节文字的第三特征值,包括:
根据单个章节文字与特征值的对应关系,将各个所述章节文字的特征值相加,得到第三特征值。
6.根据权利要求2所述的方法,其特征在于,所述目录特征为格式特征;所述格式特征包括以数字结尾的行和/或基于行宽的比值小于第二预设阈值;
所述遍历目标文档,获取所述目标文档中的格式特征,包括:
遍历目标文档,获取以数字结尾的行;和/或,
遍历目标文档的每一行,确定每一行的宽度;
将所述目标文档的所有行的宽度相加,得到所有行的宽度的平均值;
将每一行的宽度和所述平均值的比值,与所述第二预设阈值比较,确定每行对应的所述比值是否小于所述第二预设阈值;
所述根据预设的格式特征与特征值的对应关系,获取所述格式特征的第二总特征值,包括:
根据预设的格式特征与特征值的对应关系,获取以数字结尾的行的第四特征值和/或基于行宽的比值小于所述第二预设阈值的第五特征值;
将所述第四特征值和/或所述第五特征值相加,得到第二总特征值。
7.根据权利要求6所述的方法,其特征在于,所述根据预设的格式特征与特征值的对应关系,获取以数字结尾的行的第四特征值,包括:
根据单个以数字结尾的行与特征值的对应关系,将各个以数字结尾的行的特征值相加,得到第四特征值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海豹好玩科技有限公司,未经珠海豹好玩科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210724595.X/1.html,转载请声明来源钻瓜专利网。