[发明专利]一种文本结构化的方法有效

申请号：	201711036517.6	申请日：	2017-10-30
公开（公告）号：	CN107729526B	公开（公告）日：	2020-04-07
发明（设计）人：	汪东升;邱朋飞;徐涛	申请（专利权）人：	清华大学
主分类号：	G06F16/25	分类号：	G06F16/25;G06F16/335;G06F16/903
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	王莹;吴欢燕
地址：	100084 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本结构方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种文本结构化的方法，包括：S1，根据待结构化文本的文本类型，获取相应的切分配置文件和抽取配置文件；S2，遍历切分配置文件中的第一切分规则，根据每一第一切分规则中的起点类型、终点类型、起点位置和终点位置，从待结构化文本中获取对应第一切分规则的切分片段；S3，遍历抽取配置文件中的每一切分片段的第一抽取规则，将每一第一抽取规则中的正则表达式与切分片段进行匹配，根据匹配结果从切分片段中抽取待获取的信息，得到结构化的文本。本发明通过设计一套通用的文本结构化的方法，根据不同文本的文本类型调用相应的配置文件，快速实现不同类型的文本的结构化。

技术领域

本发明涉及数据处理领域，更具体地，涉及一种文本结构化的方法。

背景技术

随着信息技术的不断发展和普及，各行各业已经广泛利用信息技术来提高效率和生产力，由此产生了海量的文本数据。这些文本数据往往含有大量有用的信息，有效利用这些文本数据资源挖掘出有用的信息已经成为一个很迫切的需求。统计分析是一种有效的方法，但是统计分析不能发掘一些隐藏的信息，大数据技术被广泛地用来进行数据处理和数据挖掘。无论是统计分析，还是大数据技术，所处理的对象往往是结构化的数据，而生产生活中产生的海量文本数据中，大多是非结构化的数据，需要将其处理成结构化数据才能更好的采用统计分析和大数据技术进行处理。

将非结构化文本进行结构化处理，需要从非结构化文本中抽取出结构化数据信息。不同类型的文本由于格式的不同，从其中要获取的结构化数据信息往往也是不同的，现有技术中针对不同类型的文本需要定义不同的方法和不同的程序，但是这种做法比较费时，程序也没有通用性，不能依靠同一套方法来实现不同类型文本的结构化。

发明内容

本发明提供一种克服上述问题或者至少部分地解决上述问题的文本结构化的方法。

第一方面，本发明提供一种文本结构化的方法，包括：

S1，根据待结构化文本的文本类型，获取相应的切分配置文件和抽取配置文件；

S2，遍历所述切分配置文件中的第一切分规则，根据每一所述第一切分规则中的起点类型、终点类型、起点位置和终点位置，从所述待结构化文本中获取对应所述第一切分规则的切分片段；

S3，遍历所述抽取配置文件中的每一所述切分片段的第一抽取规则，将每一所述第一抽取规则中的正则表达式与所述切分片段进行匹配，根据匹配结果从所述切分片段中抽取待获取的信息，得到结构化的文本；

其中，所述起点位置的类型与所述起点类型对应，所述终点位置的类型与所述终点类型对应。

优选地，遍历所述切分配置文件中的第一切分规则，若第一切分规则中的起点类型为段号，根据与所述起点类型对应的所述起点位置获得所述切分片段的起始段号；

若所述终点类型为段号，根据与所述终点类型对应的所述终点位置获得所述切分片段的终止段号。

优选地，若所述起点类型为正则表达式，则所述第一切分规则中还包括起点正则表达式；将所述起点正则表达式与所述待结构化文本进行匹配，获得第一匹配段；

根据与所述起点类型对应的起点位置判断所述第一匹配段是否包含在所述切分片段中，获得所述切分片段的起始段号；