[发明专利]上市公司报告的逻辑结构树构建方法、系统、存储介质及终端有效
| 申请号: | 202110915112.X | 申请日: | 2021-08-10 |
| 公开(公告)号: | CN113642291B | 公开(公告)日: | 2022-10-18 |
| 发明(设计)人: | 何思佳;孙峥 | 申请(专利权)人: | 东方财富信息股份有限公司 |
| 主分类号: | G06F40/14 | 分类号: | G06F40/14;G06F40/154 |
| 代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 徐秋平 |
| 地址: | 201801 上海*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 上市公司 报告 逻辑 结构 构建 方法 系统 存储 介质 终端 | ||
1.一种上市公司报告的逻辑结构树构建方法,其特征在于:包括以下步骤:
将上市公司报告转换为html格式文档;
对所述html格式文档进行预处理,获取html层级结构文档;
获取逻辑结构树的预设结构,在所述html层级结构文档中抽取所述预设结构的各级节点;
基于所述各级节点,基于文本匹配的方式提取匹配内容以获取所述逻辑结构树;
基于所述各级节点,基于文本匹配的方式提取匹配内容以获取所述逻辑结构树包括以下步骤:
基于所述html格式文档的目录对所述逻辑结构树进行校验;
校验通过后,进行栏目查找;其中,在所述逻辑结构树的子树上匹配对应的栏目对象,所述栏目对象继承自子树对象,直至所述逻辑结构树的栏目查找完毕;
进行栏目查找时,包括对所述栏目中的表格进行识别;对所述栏目中的表格进行识别包括以下步骤:
抽取所述表格的表头并进行别名标准化;
将别名标准化后的表头按照首字母排序生成一个字符串;
将所述字符串转换为MD5值,基于所述MD5值进行表格识别;
进行栏目查找时,包括对所述栏目中的表格进行变形;对所述栏目中的表格进行变形包括以下步骤:
根据html标记查找表格;
在文件层面进行跨页表格的合并;
在文件层面进行表格变形;
抽取每个表格的位置、上下文、单位币种的信息;
生成表格对象,其中,在所述栏目下找到的表格分配该栏目ID,在所述栏目以外区块的表格分配默认栏目ID;
进行栏目查找时,包括对所述栏目中的表格数据进行纵向校验;
进行纵向校验时,所有的列的披露项目直接加总,若全部列的总数都与合计平衡,则直接通过检验;只要有一列的总数与合计不平衡,则找父子项;若未找到父子项,则通过标准编码查找父子关系,所述标准编码是在行列表头标准化时赋值的;当所有列都满足子项加总与父项平衡时,只取子项参与统计,否则取父项参与统计;确定了父子项哪个需要参与之后,所有的列都满足参与计算的项目的加总值与合计项平衡时,整张表通过纵向校验;
进行栏目查找时,包括对所述栏目中的表格数据进行横向校验;
进行横向校验时,先将能够确定加减的项目做计算,其他做试算;如果项目试算有符号,用试算的符号判断是本期增加还是本期减少;如果试算无符号,则先用前六位判断本期增加还是本期减少,前六位无法判断时用自身是正数还是负数做判断。
2.根据权利要求1所述的上市公司报告的逻辑结构树构建方法,其特征在于:将上市公司报告转换为html格式文档包括以下步骤:
获取PDF格式的上市公司报告;
将所述PDF格式的上市公司报告转换为html格式文档,所述html格式文档保留所述PDF格式的上市公司报告的所有文本内容及格式信息。
3.根据权利要求1所述的上市公司报告的逻辑结构树构建方法,其特征在于:对所述html格式文档进行预处理,获取html层级结构文档包括以下步骤:
识别所述html格式文档的目录;
基于正则匹配算法删除所述html格式文档中的目录文本信息,获取html层级结构文档。
4.根据权利要求1所述的上市公司报告的逻辑结构树构建方法,其特征在于:获取逻辑结构树的预设结构,在所述html层级结构文档中抽取所述预设结构的各级节点包括以下步骤:
识别所述html层级结构文档的层级结构;
基于所述层级结构,采用由上至下、先外层后内层的策略,递归查找所述预设结构的所有直属子节点;
当所有直属子节点全部查找完毕后,根据所述直属子节点的覆盖范围查找并抽取所有直属孙节点;
依次类推,直至覆盖范围内查找不到下一级节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东方财富信息股份有限公司,未经东方财富信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110915112.X/1.html,转载请声明来源钻瓜专利网。





