[发明专利]一种文档逻辑结构重建方法有效
| 申请号: | 201611034443.8 | 申请日: | 2016-11-23 |
| 公开(公告)号: | CN106776495B | 公开(公告)日: | 2020-06-09 |
| 发明(设计)人: | 侯霞;李宁;赵雪;杨鸿波 | 申请(专利权)人: | 北京信息科技大学 |
| 主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F40/103 |
| 代理公司: | 北京远创理想知识产权代理事务所(普通合伙) 11513 | 代理人: | 卫安乐 |
| 地址: | 100192 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文档 逻辑 结构 重建 方法 | ||
1.一种文档逻辑结构重建方法,其特征在于,包括:
步骤1、针对源文档进行分段,并识别出每一段落的角色类型;具体包括:
步骤11、获取每一段落的特征向量M=[m1 m2 ... mn];其中每一段落的特征向量具有n个分量:m1、m2......mn;其中每个分量表示一种格式信息,所述格式信息为以下的至少一种:字体大小、字型、大纲级别、行距、是否加黑、是否粗体、是否斜体;
步骤12、利用预设的向量模板集合,对所述每一段落的向量进行匹配,以确定每一段落的角色;其中预设的向量模板集合中包含多个预定义的向量,且每一向量对应一种特定的角色类型;
步骤2、根据源文档的每一段落的角色类型,构建出源文档的逻辑模型;
所述步骤12具体包括:针对源文档的每一段落,利用以下公式计算每一段落的向量M段与向量模板集合中的预定义的向量M角色之间的相似度:
其中
ki是权值,表示计算相似度时特征分量i的贡献度,
mmaxi是第i个段落的分量和第i段落角色的分量的最大值;m段i为第i段落的分量,m角色i为第i段落角色的分量;
所述步骤2具体包括:
步骤21、识别段落的角色类型;
步骤22、为当前段落创建XML节点,并为该XML节点的元素赋级别值D当前;
步骤23、获取当前节点的父节点的级别值D父,判断当前节点的父节点的级别值D父≥当前节点的级别值D当前是否成立,如果是则进入步骤24,如果否则进入步骤25;
步骤24、将当前节点的父节点的级别值D父赋值给当前节点的父节点的父节点,并将当前节点的父节点的级别值D父-1;即D爷=D父,且D父=D父-1;然后返回步骤23;
步骤25、将当前节点添加到当前节点的父节点的孩子;然后将当前节点作为父节点,并将父节点的级别数+1。
2.根据权利要求1所述的文档逻辑结构重建方法,其特征在于,所述方法还包括:
设计通用的文档模型以描述文档各部分内容之间的逻辑关系;其中所述通用的文档模型包括用于表示文档的根节点,所述根节点有一个用于表示文档元数据的子节点和一个用于表示内容的子节点,其中所述用于表示内容的子节点包括5种内容单元:段落、公式、列表、表格、图形;其中所述用于表示文档的根节点可以直接包含O-n个一级章节,或者通过一级章节外部引用的方式包含O-n个外部定义的一级章节;
每一所述一级章节可以包含有一个用于表示文档元数据的子节点和一个用于表示内容的子节点,还可以包含O-n个二级章节;
以此类推,每个章节节点都可以包含一个用于表示文档元数据的子节点和一个用于表示内容的子节点,还可以包含O-n个下一级章节;且包含下一级章节都可以直接包含,或通过外部引用的方式包含。
3.根据权利要求1所述的文档逻辑结构重建方法,其特征在于,所述步骤2具体包括:利用预设的通用的文档模型,并根据源文档每一段落的类型,生成源文档的逻辑结构模型。
4.根据权利要求1所述的文档逻辑结构重建方法,其特征在于,所述每一段落的向量为:
M=[字体大小 字型 大纲级别 是否斜体 是否加黑 行距]。
5.根据权利要求1所述的文档逻辑结构重建方法,其特征在于,所述方法还包括:根据每一段落的特征向量M的格式信息预赋值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611034443.8/1.html,转载请声明来源钻瓜专利网。





