[发明专利]大规模文本信息批量结构化的方法及装置有效
申请号: | 201710868572.5 | 申请日: | 2017-09-22 |
公开(公告)号: | CN107704539B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 汪东升;蔡尚铭;徐涛 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2455;G06F16/28;G06F16/2458 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;李相雨 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大规模 文本 信息 批量 结构 方法 装置 | ||
1.一种大规模文本信息批量结构化的方法,其特征在于,包括:
根据不同文本信息的目标信息项建立不同的切分和抽取规则,以配置文件形式提供规则输入接口;其中,所述文本信息具体为非结构化文本信息;
根据对应的切分规则和抽取规则,以流水线处理方式,依次对单个文本信息完成包括数据加载、片段切分、信息抽取和信息汇聚的自动化信息抽取操作;其中,所述数据加载具体包括:根据所读入的各类文件的后缀及其文件头自动判别文件类型,然后读取出正确的文本数据加载至内存中;所述切分规则由一系列信息拼接而成,包括:规则号、起点类型、起点位置、终点位置、终点类型以及动作这6项;
按照目标信息项的数据类型格式和长度建立数据库关系表,将经过自动化信息抽取后的文本信息转化为结构化记录,保存到数据库关系表中,对于未能成功抽取出关键信息的文本信息,使用统计机器学习的方法从已成功抽取的结构化记录数据中推测出候选信息项,根据所述候选信息项及对应的文本信息和规则内容对已有规则进行修正;其中,所述统计机器学习的方法,会根据目标抽取项与该项抽取规则中的定位关键词之间的位置及词性关系,分析原始文本信息,进而通过数据库中已成功抽取的大量目标项的信息推测出未能成功抽取的目标项的候选信息项,以用于更新抽取规则。
2.一种大规模文本信息批量结构化的装置,其特征在于,包括:
数据加载模块,用于根据所读入的各类文件的后缀及其文件头自动判别文件类型,然后读取出正确的文本数据加载至内存中;
切分模块,用于读取切分规则库,逐条解析执行,将文本信息按照规则定义切分成片段,组成字符串数组并输出,其中,所述切分规则库,存储着对应文本信息的切分规则,切分模块根据这些规则将文本切分成若干独立的文字片段;其中,所述文本信息具体为非结构化文本信息;所述切分规则库中所保存的切分规则由一系列信息拼接而成,包括:规则号、起点类型、起点位置、终点位置、终点类型以及动作这6项;
抽取模块,用于读取抽取规则库,在对应的文字片段中逐条执行规则内容,抽取各项关系表字段,其中,所述抽取规则库,存储着对应文本信息的数据库关系表中各字段的抽取规则,抽取模块根据这些规则从文字片段中抽取字段信息;
汇聚模块,用于汇集抽取的字段信息,同时读取关系表元数据,按照字段类型拼装记录并保存至数据库关系表中,其中,所述关系表元数据,包括对应文本信息的数据库关系表的结构和字段类型,用于后台创建数据库关系表;
规则学习/配置模块,用于当抽取模块抽取字段信息发生错误时,将错误信息以及对应的文本信息和规则内容写入log日志,并调用统计机器学习算法推测候选信息项,根据所述错误信息以及对应的文本信息和规则内容、候选信息项对已有规则进行修正;所述规则学习/配置模块中所使用的统计机器学习方法,会根据目标抽取项与该项抽取规则中的定位关键词之间的位置及词性关系,分析原始文本信息,进而通过数据库中已成功抽取的大量目标项的信息推测出未能成功抽取的目标项的候选信息项,以用于更新抽取规则。
3.根据权利要求2所述的装置,其特征在于,该装置基于流水线处理机制,在信息抽取流程中各模块具有严格定义的输入输出接口,相互独立透明。
4.根据权利要求2所述的装置,其特征在于,所述抽取规则具有多类抽取方式,包括:正则表达式匹配、多行直接抽取、按每行嵌套抽取以及先切分再嵌套抽取共4种抽取的方式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710868572.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:易拉罐(宠物玩具)
- 下一篇:一种快速提取OSM数据中指定行政区内路网的方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置