[发明专利]一种语料结构化的方法及装置有效
| 申请号: | 201110260373.9 | 申请日: | 2011-09-05 |
| 公开(公告)号: | CN102982036A | 公开(公告)日: | 2013-03-20 |
| 发明(设计)人: | 李凯;翟因为;黄冶 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正电子有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
| 地址: | 100871 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语料 结构 方法 装置 | ||
技术领域
本发明涉及信息处理技术领域,尤其涉及一种语料结构化的方法及装置。
背景技术
在目前的信息发布领域,很多信息都是通过纸质媒介发布后,对已出版文件的存档一般最小存储单位是一篇文档。使得再版或者需要对某一文档的特定内容进行搜索时,必须逐行逐字的查询。无法满足对一篇文档内部特定内容(如正文、注文、专有名词等)的高级检索要求,无法满足对古籍中某些内容的深度加工,例如,根据考古发现修改或扩展古籍的注文;
另外,此种出版方式留下的古籍语料文件的特点是古籍的内容与样式混合在同一个语料文件中,仅考虑浏览需要使用不同的颜色、下划线等样式区分了古籍中的不同类,等同于一个带样式的字符序列;
此种出版方式古籍内容组成无结构化,导致再次出版时,若需要改动特定内容的样式(如将注文的颜色由深红改为深蓝),则必须重新对每篇古籍做整体修改;
由于每篇古籍语料篇幅长,特定内容在古籍中出现次数很多,例如一篇3万字的古籍,专有名词可能出现几千次,因此手工从古籍语料文件中抽取特定内容效率低下,容易出错。
综上所述,在古籍采用印刷出版方式发布信息的领域中,数字资源的再利用率低,不能直接应用于古籍高级检索,不便于信息的深度加工,不便于快速再版,并且手工从数字资源中提取内容效率低下。
发明内容
本发明提供一种语料结构化的方法及装置,用于解决现有技术中预料文件的存储方式导致从数字资源中提取内容效率低下的问题。
本发明实施例提供一种语料结构化的方法,包括:
获取待结构化语料对应的语料文件,根据语料文件中字符的字体属性信息在所述语料文件不同特定内容间添加分割标签生成中间文件;
根据预设的自动结构化规则中字体属性信息与特定内容的对应关系,从所述中间文件中提取与所述特定内容对应的字符信息;
根据所述自动结构化规则中不同特定内容的层次关系将提取的字符信息组合成结构化的语料文件后上传到服务器存储。
根据该方法本发明实施例还提供一种语料结构化的装置,包括:
中间文件生成模块,用于获取待结构化语料对应的语料文件,根据语料文件中字符的字体属性信息在所述语料文件不同特定内容间添加分割标签生成中间文件;
字符信息提取模块,用于根据预设的自动结构化规则中字体属性信息与特定内容的对应关系,从所述中间文件中提取与所述特定内容对应的字符信息;
结构化模块,用于根据所述自动结构化规则中不同特定内容的层次关系将提取的字符信息组合成结构化的语料文件后上传到服务器存储。
应用本发明实施例提供的方法和装置,对于以整篇文档为存储单位的语料文件,按照将语料文件各个部分的划分将语料文件分成多个独立的组成部分。在搜索文档中的某个部分或标题内容时候,能够灵活、迅速的获取到。
附图说明
图1为本发明实施例一种语料结构化的方法的流程图;
图2为本发明实施例一种语料结构化的装置的结构图。
具体实施方式
本发明实施例提供一种语料结构化的方法,该方法包括:获取待结构化语料对应的语料文件,根据语料文件中字符的字体属性信息在所述语料文件不同特定内容间添加分割标签生成中间文件;根据预设的自动结构化规则中设定的字体属性信息与特定内容的对应关系,从所述中间文件提取与所述特定内容对应的字符信息;根据所述自动结构化规则中设定的不同特定内容的层次关系将提取的字符信息组合后上传到服务器,使服务器存储结构化的语料文件。
如图1所示,本发明实施例提供一种语料结构化的方法,具体包括步骤:
步骤101,获取待结构化语料对应的语料文件,根据语料文件中字符的字体属性信息在所述语料文件不同特定内容间添加分割标签生成中间文件;
每一篇语料文件的不同特定内容包括:正文、注文、专有名词等;
在每一篇语料文件中可能不同部分的字体的大小、字体的样式、字体颜色等会不相同,从而起到区分不同部分的效果。
步骤102,根据预设的自动结构化规则中字体属性信息与特定内容的对应关系,从所述中间文件中提取与所述特定内容对应的字符信息;
为了提高所述自动结构化规则和所述中间文件的对各种设备的兼容性,本发明实施例中的自动结构化规则和所述中间文件可应用可扩展标记语言XML来编写。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110260373.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:图像形成装置和图像形成系统
- 下一篇:电加热吸烟系统





