[发明专利]基于图像处理与序列标注的学术文献语义再结构化方法有效

申请号：	201510768902.4	申请日：	2015-11-12
公开（公告）号：	CN105260727B	公开（公告）日：	2018-09-21
发明（设计）人：	陆伟;丁恒;方龙	申请（专利权）人：	武汉大学
主分类号：	G06K9/00	分类号：	G06K9/00
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	魏波
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于图像处理与序列标注的学术文献语义再结构化方法，通过将学术文献进行相关处理转化为图像形式，并对其进行版式分析；利用OCR(Optical Character Recognition光学字符识别)技术对每个符合学术文献逻辑结构的文本区块进行识别，将图像等转换为机器可读的纯文本；利用自然语言处理中的序列标注模型，对处理后的文献内容进行标签序列转换；通过对比版式分析和序列标注的得到的文献逻辑结构结果，进行优化，得到最终的文献逻辑结构。为文献自动添加语义标签，以辅助阅读，将其在一定程度上转化为结构化的内容，提供了学术文献的利用效率。
搜索关键词：	基于图像处理序列标注学术文献语义结构方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于图像处理与序列标注的学术文献语义再结构化方法，其特征在于，包括以下步骤：步骤1：将学术文献转化为图像形式，并对其进行版式分析；首先进行灰度化、二值化、轮廓获取、外轮廓、建立rtree空间索引，再利用空间索引对相互覆盖的文本区块进行融合，最终获得符合学术文献逻辑结构的区块；步骤2：利用图像识别技术和OCR技术对每个符合学术文献逻辑结构的区块进行识别；其中图像识别技术将逻辑区块分类为文本、图像、表格三类，对于识别为图像和表格的区块将以JPG格式保存为图像，对于文本区块采用开源OCR工具Tesseract将图像转换为机器可读的纯文本；步骤3：利用自然语言处理中的序列标注模型，对步骤2中识别出来的区块进行标签序列转换；利用条件随机场模型对步骤2识别出来的文本区块进行序列标注，其具体实现包括以下子步骤：步骤3.1：预处理；主要是对文本格式的数据，进行句子切分、分词、词法分析；步骤3.2：特征抽取，抽取文本块在一篇文章里面的相对位置作为特征P，包括头部，文章主体以及文章结尾；将数字标题以及段落特征作为特征T，通过检测文献的数字开头行判断是否是小标题；标点符号以及特殊符号作为特征M；文本块的长度作为特征L，每个文本块包含的词的数量；文献中字体的大小作为特征F以及文本块的起始坐标作为特征C；CRF是序列标注问题，所以在特征抽取时会得到一个序列，即对于每一个文本区块标记，它的所有上下文文本块的逻辑结构顺序得到的标记结果构成了一个标记序列S＝(P+T+M+L+F+C)；步骤3.3：对特征抽取得到的特征文件进行处理，得到每一个序列标注的标注结果，然后对标注结果进行查全、查准评价；步骤3.4：利用序列标注的结果对文本区块进行融合，最终获得符合学术文献逻辑结构的文本区块；步骤4：对序列标注得到的文献逻辑结构结果进行优化，得到最终的文献逻辑结构。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉大学，未经武汉大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510768902.4/，转载请声明来源钻瓜专利网。

上一篇：用于处理图像信息的方法和装置
下一篇：车辆行驶过程中对车主眼睛注意力进行识别的系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于图像处理与序列标注的学术文献语义再结构化方法有效

专利文献下载