[发明专利]大规模文本信息批量结构化的方法及装置有效

专利信息
申请号: 201710868572.5 申请日: 2017-09-22
公开(公告)号: CN107704539B 公开(公告)日: 2020-10-23
发明(设计)人: 汪东升;蔡尚铭;徐涛 申请(专利权)人: 清华大学
主分类号: G06F16/22 分类号: G06F16/22;G06F16/2455;G06F16/28;G06F16/2458
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 王莹;李相雨
地址: 100084 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 大规模 文本 信息 批量 结构 方法 装置
【权利要求书】:

1.一种大规模文本信息批量结构化的方法,其特征在于,包括:

根据不同文本信息的目标信息项建立不同的切分和抽取规则,以配置文件形式提供规则输入接口;其中,所述文本信息具体为非结构化文本信息;

根据对应的切分规则和抽取规则,以流水线处理方式,依次对单个文本信息完成包括数据加载、片段切分、信息抽取和信息汇聚的自动化信息抽取操作;其中,所述数据加载具体包括:根据所读入的各类文件的后缀及其文件头自动判别文件类型,然后读取出正确的文本数据加载至内存中;所述切分规则由一系列信息拼接而成,包括:规则号、起点类型、起点位置、终点位置、终点类型以及动作这6项;

按照目标信息项的数据类型格式和长度建立数据库关系表,将经过自动化信息抽取后的文本信息转化为结构化记录,保存到数据库关系表中,对于未能成功抽取出关键信息的文本信息,使用统计机器学习的方法从已成功抽取的结构化记录数据中推测出候选信息项,根据所述候选信息项及对应的文本信息和规则内容对已有规则进行修正;其中,所述统计机器学习的方法,会根据目标抽取项与该项抽取规则中的定位关键词之间的位置及词性关系,分析原始文本信息,进而通过数据库中已成功抽取的大量目标项的信息推测出未能成功抽取的目标项的候选信息项,以用于更新抽取规则。

2.一种大规模文本信息批量结构化的装置,其特征在于,包括:

数据加载模块,用于根据所读入的各类文件的后缀及其文件头自动判别文件类型,然后读取出正确的文本数据加载至内存中;

切分模块,用于读取切分规则库,逐条解析执行,将文本信息按照规则定义切分成片段,组成字符串数组并输出,其中,所述切分规则库,存储着对应文本信息的切分规则,切分模块根据这些规则将文本切分成若干独立的文字片段;其中,所述文本信息具体为非结构化文本信息;所述切分规则库中所保存的切分规则由一系列信息拼接而成,包括:规则号、起点类型、起点位置、终点位置、终点类型以及动作这6项;

抽取模块,用于读取抽取规则库,在对应的文字片段中逐条执行规则内容,抽取各项关系表字段,其中,所述抽取规则库,存储着对应文本信息的数据库关系表中各字段的抽取规则,抽取模块根据这些规则从文字片段中抽取字段信息;

汇聚模块,用于汇集抽取的字段信息,同时读取关系表元数据,按照字段类型拼装记录并保存至数据库关系表中,其中,所述关系表元数据,包括对应文本信息的数据库关系表的结构和字段类型,用于后台创建数据库关系表;

规则学习/配置模块,用于当抽取模块抽取字段信息发生错误时,将错误信息以及对应的文本信息和规则内容写入log日志,并调用统计机器学习算法推测候选信息项,根据所述错误信息以及对应的文本信息和规则内容、候选信息项对已有规则进行修正;所述规则学习/配置模块中所使用的统计机器学习方法,会根据目标抽取项与该项抽取规则中的定位关键词之间的位置及词性关系,分析原始文本信息,进而通过数据库中已成功抽取的大量目标项的信息推测出未能成功抽取的目标项的候选信息项,以用于更新抽取规则。

3.根据权利要求2所述的装置,其特征在于,该装置基于流水线处理机制,在信息抽取流程中各模块具有严格定义的输入输出接口,相互独立透明。

4.根据权利要求2所述的装置,其特征在于,所述抽取规则具有多类抽取方式,包括:正则表达式匹配、多行直接抽取、按每行嵌套抽取以及先切分再嵌套抽取共4种抽取的方式。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710868572.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top