[发明专利]一种面向非结构化表格文档的实体与关系抽取方法有效
申请号: | 202010021995.5 | 申请日: | 2020-01-09 |
公开(公告)号: | CN111274327B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 张元鸣;李梦妮;高天宇;肖刚;程振波;陆佳炜 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/36 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 结构 表格 文档 实体 关系 抽取 方法 | ||
一种面向非结构化表格文档的实体与关系抽取方法,将非结构化表格文档划分为离散的单值表格和多值表格;采用表格位置特征和文本规则从单值表格中抽取出知识,并基于规则对其进行标注,得到实体、关系、属性和属性值,组织成三元组形式;利用表格位置和文本规则从多值表格中抽取出知识,对字符串进行语义分割,并基于规则对其进行标注,得到实体、关系、属性和属性值,组织成三元组形式。本发明给出的实体与关系抽取方法能够将非结构化表格文档的信息处理成结构化数据,并准确的抽取出其中的实体、关系、属性及属性值,形成三元组集合,为进一步构建知识图谱的工作奠定了良好的基础。
技术领域
本发明涉及知识图谱、人工智能等领域,特别给出了一种面向非结构化表格文档的实体与关系抽取方法。
背景技术
知识图谱本质上是一种大规模的语义网络,旨在描述现实世界中存在的各种实体、概念及关系,作为大数据时代的重要知识表示方法,知识图谱已经成为人工智能的关键技术之一,被广泛应用于语义搜索、智能问答、智能推荐等领域。知识图谱的基本组织形式是(实体,关系,实体)或(实体,属性,属性值),实体间或实体属性值间通过相关链接构成大规模的结构化网络,即知识图谱。知识图谱将世界上所有人物、地名等专有名词表示为实体,将实体之间的内在联系表示为关系,旨在将数据库中的海量知识表示为实体之间的利用关系。
实体抽取作为三元组抽取中的子任务,也是最基础的一步,指的是从原始语料中自动识别出指定类型的命名实体,如国家名、人名、地名等。关系抽取是实体抽取基础上的一个任务,其目的在于从非结构化的文本信息中挖掘出实体间的语义关联,促进知识图谱的构建,从而为用户提供更加精准的搜索服务、知识问答等。曾道建等(江西师范大学学报(自然科学版),2013)从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题,充分利用百度百科信息框已有的结构化内容,对非结构化文本回标自动产生训练数据,得到训练语料后,结合中文特点,选取多维度特征训练序列标注模型,并利用上下文信息进一步提高系统性能,进而在非结构化文本中抽取出实体的属性及属性值。冯建周等(电子学报,2019)提出一种基于改进注意力机制的卷积神经网络实体关系抽取模型,该模型针对包含同一实体对的句子集合,从中尽可能地找出所有体现该实体对关系的正实例,构建组合句子向量,抛弃可能的噪声句子,从而最大程度地降低噪声句子的影响又能充分利用正实例的语义信息。万常选等(计算机学报,2019)研究了基于协陪义动词的中文隐式实体关系抽取问题,将机器学习方法与规则相结合,借助于显式实体关系对隐式实体关系进行推理,利用依存句法分析,设计了协陪义候选句型分类算法、相应的协陪义成分识别算法三种句内以及基于协陪义动词的隐式实体关系推理规则;并建立不同句子中协陪义动词的主体成分与客体成分之间的联系,实现句间基于协陪义动词的隐式实体关系抽取。S Zheng等(Neurocomputing,2017)提出了一种混合神经网络模型来提取实体及其关系,而不需要任何手工特征,该混合神经网络包含一个用于实体抽取的双向编译码器LSTM模块(BiLSTM-ED)和一个用于关系分类的CNN模块,BiLSTM-ED中实体的上下文信息进一步传递到CNN模块,改进了关系分类。
发明内容
非结构化表格文档被广泛应用于政府部门和企事业单位,其中存储了大量的数据,从非结构化表格文档中抽取实体和关系是知识图谱面临的技术难点。为此,本发明提出一种面向非结构化表格文档的实体与关系抽取方法,利用表格中的位置特征和文本规则精准地抽取出文档中的实体、关系、属性及属性值,形成三元组集合,用于构建知识图谱。
为了解决上述技术问题本发明提供如下的技术方案:
一种面向非结构化表格文档的实体与关系抽取方法,包括以下步骤:
1)非结构化表格文档划分,过程如下:
表格中的标题区指数据的性质和类别,数据区是指标题区对应的实际取值,根据表格中标题区与数据区的对应关系,将表格文档划分为单值表格和多值表格,其特征为:
1.1)单值表格:标题区与数据区是一对一关系,且相邻;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010021995.5/2.html,转载请声明来源钻瓜专利网。