[发明专利]一种知识文档结构理解和转换装置在审
申请号: | 202310145977.1 | 申请日: | 2023-02-21 |
公开(公告)号: | CN116227438A | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 赵涛涛;周松柏 | 申请(专利权)人: | 中科国力(镇江)智能技术有限公司 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06V30/413;G06V30/414 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 高娇阳 |
地址: | 212000 江苏省镇江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 知识 文档 结构 理解 转换 装置 | ||
1.一种知识文档结构理解和转换装置,其特征在于包括:
模块1:将输入的Word或PDF知识文档,转换成HTML知识文档;
模块2:将HTML知识文档转换为纯文本、表格与图片序列;
模块3:识别HTML知识文档的纯文本、表格与图片序列中的标题;
模块4:识别HTML知识文档的纯文本、表格与图片序列中的标题正文;
模块5:产生HTML知识文档的解析图;
模块6:规范化HTML知识文档的标题层级;
模块7:将HTML知识文档转换到规范化的知识文档模板。
2.根据权利要求1所述的一种知识文档结构理解和转换装置,其特征在于:
所述模块1用POI提供的API接口,直接将用户输入Word知识文档或者PDF知识文档转换成HTML文档;
所述模块2接收模块1输出的HTML文档,利用Jsoup工具,对HTML文档进行操作,形成一个纯文本、表格与图片序列;
所述模块3将HTML知识文档的标题分为带一级序号的标题、带非一级序号的标题、目录标题、强调标题、步骤标题、FAQ标题、无序号标题,并分别进行识别;
所述模块4在知识文档理解过程中,将知识文档的各个层级的标题与它们对应的正文准确地对应起来;
所述模块5输出知识文档对应的解析图,其节点为由文档中的标题、在知识文档中的层级以及分类类别构成,其边为下级或先于;
所述模块6将非规范的知识文档标题的所有下级标题,连同所有下级标题拥有的标题正文转换为该非规范的知识文档标题的标题正文。
3.根据权利要求1或2所述的一种知识文档结构理解和转换装置,其特征在于:所述模块2的实施方法如下:
步骤2-1:对HTML文档,对HTML文档中的第i个表格,完整地取出第i个表格,记为Tabi,所取出的表格按照它们在HTML文档中的次序分别记为Tab1、Tab2、……,称为HTML文档的表格序列;
步骤2-2:对HTML文档,对HTML文档中的第j个图片,完整地取出第j个图片,记为IMGj,所取出的图片按照它们在HTML文档中的次序分别记为IMG1、IMG2、……,称为HTML文档的图片序列;
步骤2-3:对HTML文档,使用Jsoup完整取出HTML文档中的第k个纯文本段落记为TXTk,所取出的纯文本段落按照在HTML文档中的次序分别记为TXT1、TXT2、……,称为HTML文档的纯文本段落序列;
步骤2-4:根据步骤2-1、2-2、2-3取出的表格、图片和纯文本段落,按照它们在HTML文档出现的次序,输出一个内容序列B1、B2、……、Bm、……、Bn,称为HTML文档的纯文本、表格与图片序列,其中Bm是HTML文档的表格序列中的一个表格,或者是HTML文档的图片序列中的一个图片,或者是HTML文档的纯文本段落序列中的一个纯文本段落;
步骤2-4:返回B1、B2、……、Bm、……、Bn。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科国力(镇江)智能技术有限公司,未经中科国力(镇江)智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310145977.1/1.html,转载请声明来源钻瓜专利网。