[发明专利]上市公司报告的逻辑结构树构建方法、系统、存储介质及终端有效
| 申请号: | 202110915112.X | 申请日: | 2021-08-10 | 
| 公开(公告)号: | CN113642291B | 公开(公告)日: | 2022-10-18 | 
| 发明(设计)人: | 何思佳;孙峥 | 申请(专利权)人: | 东方财富信息股份有限公司 | 
| 主分类号: | G06F40/14 | 分类号: | G06F40/14;G06F40/154 | 
| 代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 徐秋平 | 
| 地址: | 201801 上海*** | 国省代码: | 上海;31 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 上市公司 报告 逻辑 结构 构建 方法 系统 存储 介质 终端 | ||
本发明提供一种上市公司报告的逻辑结构树构建方法、系统、存储介质及终端,包括以下步骤:将上市公司报告转换为html格式文档;对所述html格式文档进行预处理,获取html层级结构文档;获取逻辑结构树的预设结构,在所述html层级结构文档中抽取所述预设结构的各级节点;基于所述各级节点,基于文本匹配的方式提取匹配内容以获取所述逻辑结构树。本发明的上市公司报告的逻辑结构树构建方法、系统、存储介质及终端基于上市公司报告的层级结构,提取特定节点信息来构建逻辑结构树,实现了上市公司报告信息的有效处理。
技术领域
本发明涉及数据处理的技术领域,特别是涉及一种上市公司报告的逻辑结构树构建方法、系统、存储介质及终端。
背景技术
上市公司报告是上市公司的董事局定期向其股东或持份者发布的报告书,是关于其前一报告期内活动的综合报告。一般的季报、半年报或年报等(以下统称定报)内容必须按照其上市之交易所指定的规则进行编写。
定报通常以电子文档的形式在互联网上发布。文档内容通常具有固定的目录样式和层级结构。这种层级结构对于人和机器的理解都有很大的研究价值和应用价值。
然而,现有技术中对于定报电子文档层级结构的提取并没有高效且准确的方法,无法将文档内容精准且具有定制化地提取为树状层级结构。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种上市公司报告的逻辑结构树构建方法、系统、存储介质及终端,基于上市公司报告的层级结构,提取特定节点信息来构建逻辑结构树,实现了上市公司报告信息的有效处理。
为实现上述目的及其他相关目的,本发明提供一种上市公司报告的逻辑结构树构建方法,包括以下步骤:将上市公司报告转换为html格式文档;对所述html格式文档进行预处理,获取html层级结构文档;获取逻辑结构树的预设结构,在所述html层级结构文档中抽取所述预设结构的各级节点;基于所述各级节点,基于文本匹配的方式提取匹配内容以获取所述逻辑结构树。
于本发明一实施例中,将上市公司报告转换为html格式文档包括以下步骤:
获取PDF格式的上市公司报告;
将所述PDF格式的上市公司报告转换为html格式文档,所述html格式文档保留所述PDF格式的上市公司报告的所有文本内容及格式信息。
于本发明一实施例中,对所述html格式文档进行预处理,获取html层级结构文档包括以下步骤:
识别所述html格式文档的目录;
基于正则匹配算法删除所述html格式文档中的目录文本信息,获取html层级结构文档。
于本发明一实施例中,获取逻辑结构树的预设结构,在所述html层级结构文档中抽取所述预设结构的各级节点包括以下步骤:
识别所述html层级结构文档的层级结构;
基于所述层级结构,采用由上至下、先外层后内层的策略,递归查找所述预设结构的所有直属子节点;
当所有直属子节点全部查找完毕后,根据所述直属子节点的覆盖范围查找并抽取所有直属孙节点;
依次类推,直至覆盖范围内查找不到下一级节点。
于本发明一实施例中,基于所述各级节点,基于文本匹配的方式提取匹配内容以获取所述逻辑结构树包括以下步骤:
基于所述html格式文档的目录对所述逻辑结构树进行校验;
校验通过后,进行栏目查找;其中,在所述逻辑结构树的子树上匹配对应的栏目对象,所述栏目对象继承自子树对象,直至所述逻辑结构树的栏目查找完毕。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东方财富信息股份有限公司,未经东方财富信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110915112.X/2.html,转载请声明来源钻瓜专利网。





