[发明专利]一种文本数据二次结构化的方法及装置有效

申请号：	201310449600.1	申请日：	2013-09-24
公开（公告）号：	CN104462157B	公开（公告）日：	2018-03-27
发明（设计）人：	朱学武;吴显丽	申请（专利权）人：	北大方正集团有限公司;北京北大方正电子有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京同达信恒知识产权代理有限公司11291	代理人：	黄志华
地址：	100871 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本数据二次结构方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数据处理领域，尤其涉及一种文本数据二次结构化的方法及装置。

背景技术

可扩展标记语言（Extensible Markup Language，XML）已经成为世界上发展最快的技术之一，主要用于将文本数据进行结构化，提供文本数据的结构化视图等。在很多应用领域中对文本数据的结构化都有着很高的要求，特别是在出版领域与教育领域，这就需要对已经使用XML进行了简单结构化的文本数据再进行二次结构化。

现有技术中，对文本数据进行二次结构化的方法为，人工识别XML数据中的每个节点是否需要进行二次结构化，对于需要进行二次结构化的节点，采用预先编写的程序对该节点中的数据进行二次结构化。

现有技术中的二次结构化方法会使程序员的工作量非常大，导致二次结构化的效率较低，并且由于人工识别的方式识别XML数据中的每个节点是否需要进行二次结构化，因此在二次结构化的过程中可能会因人为主观错误而降低二次结构化的准确性。

发明内容

有鉴于此，本发明实施例提供一种文本数据二次结构化的方法及装置，用以解决现有技术中二次结构化的效率和准确性较低的问题。

本发明实施例提供的一种文本数据二次结构化的方法，包括：

可扩展标记语言XML解析器采用预设的各正则表达式对XML数据中每个节点中的数据进行匹配；并

将匹配出的数据所在的节点确定为待处理节点，所述待处理节点为需要进行二次结构化的节点；以及

根据预设的规则对所述待处理节点中的数据进行二次结构化。

本发明实施例提供的一种文本数据二次结构化的装置，包括：

匹配模块，用于采用预设的各正则表达式对XML数据中每个节点中的数据进行匹配；

确定模块，用于将匹配出的数据所在的节点确定为待处理节点，所述待处理节点为需要进行二次结构化的节点；

结构化模块，用于根据预设的规则对所述待处理节点中的数据进行二次结构化。

本发明实施例提供一种文本数据二次结构化的方法及装置，该方法XML解析器采用预设的各正则表达式对XML数据中每个节点中的数据进行匹配，并根据预设的规则，对匹配出的数据所在的节点中的数据进行二次结构化。通过上述方法，可直接根据预设的各正则表达式识别XML数据中需要进行二次结构化的节点，从而无需人工识别，因此可有效提高二次结构化的效率，并且由于无需人工识别需要进行二次结构化的节点，因此可避免引入人为主观错误，从而也可有效提高二次结构化的准确性。

附图说明

图1为本发明实施例提供的文本数据二次结构化的过程；

图2为本发明实施例提供的文本数据的二次结构化装置结构示意图。

具体实施方式

下面结合说明书附图，对本发明实施例进行详细描述。

图1为本发明实施例提供的文本数据二次结构化的过程，具体包括以下步骤：

S101：XML解析器采用预设的各正则表达式对XML数据中每个节点中的数据进行匹配。

在本发明实施例中，可预先根据要进行二次结构化的数据的关键字符预设各正则表达式，正则表达式用于匹配XML数据中的关键字符。由于XML数据是以XML文档对象模型（Document Object Model，DOM）树的形式组织的，XML DOM树中的每个节点都包含了一部分XML数据，因此，在使用XML解析器解析XML数据时，可采用预设的各正则表达式对XML数据中每个节点中的数据进行匹配。

进一步的，考虑到XML数据中的编码可能并不统一，因此为了提高后续二次结构化的准确性，本发明实施例中XML解析器在采用预设的各正则表达式对XML数据中每个节点中的数据进行匹配之前，还可将该XML数据中的编码转换为预设格式的编码。其中，该预设格式的编码包括但不限于统一码（Unicode）。

S102：将匹配出的数据所在的节点确定为待处理节点。

其中，该待处理节点即为需要进行二次结构化的节点。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正电子有限公司，未经北大方正集团有限公司;北京北大方正电子有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310449600.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种信息处理方法及电子设备
下一篇：用于填充物体中的开口的制品及摩擦搅拌焊接物体的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种文本数据二次结构化的方法及装置有效

专利文献下载