[发明专利]一种基于深度学习的结构化信息抽取方法有效
申请号: | 201710139457.4 | 申请日: | 2017-03-10 |
公开(公告)号: | CN106933804B | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 谢晨昊;梁家卿;肖仰华 | 申请(专利权)人: | 上海数眼科技发展有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279 |
代理公司: | 苏州国诚专利代理有限公司 32293 | 代理人: | 韩凤 |
地址: | 200000 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 结构 信息 抽取 方法 | ||
本发明公开了一种基于深度学习的结构化信息抽取方法,包括:步骤1)采用远程监控来构建大规模标记数据,包括:使用现有的维基百科提供远程监督来构建提取器;其中,签字,维基百科信息框包含关于实体的结构化事实,这些事实也在实体网页的自由文本部分中提及,使用在信息框中表达事实的句子作为训练数据;步骤2)利用先验知识,其具有类型和短语信息,整合到结构化信息抽取模型中;其中,自然语言句子中的单词的标签与其先前的单词及其连续的单词相关;步骤3)使用双向隐藏的LSTM层来利用过去和未来的输入特征;将每个句子以序列的形式输入一个双向的LSTM模型中;步骤4)最终输出标记序列,其具有真或假标记,且具有与输入单词序列相等的长度。
技术领域
本发明属于信息处理领域,具体涉及一种基于深度学习的结构化信息抽取方法和系统。
背景技术
结构化信息的抽取上,很多研究在收集来自语料库的实体的结构化知识方面已经做了大量工作,例如Kylin,DBpedia。这些知识库,也称为知识图谱,包含有关实体的丰富的事实,例如贝拉克·奥巴马的出生地是檀香山。我们通常将实体称为主体(s),属性或方面作为谓词(p)和值作为对象(o)。由于知识图谱的广泛应用,从语料库提取结构化事实(以SPO三元组的形式)越来越吸引了很多研究兴趣。在此项技术里中,我们关注的是同时提取数千万实体的大量谓词的结构化事实的问题。
具体的问题定义如下。给定一组谓词P和大语料库,我们要以<s,p,o>的形式提取事实,其中p∈P是谓词,s是主语,o是对象。例如,假设“出生地”∈P,则从句子“...迪卡普里奥出生于加利福尼亚州好莱坞...”,我们想提取事实<莱昂纳多·迪卡普里奥,出生地,加利福尼亚州好莱坞>。
一个明显的挑战是谓词集合P可能非常大,并且很可能存在大量不同的方式来以自然语言表达每个谓词。
大多数传统方法使用句法模式来触发提取。例如,“出生于”是谓词“出生地”的模式。这些现有的方法可以基于是否自动学习模式而被分为两类,基于规则的方法和机器学习方法。这些方法最明显的弱点是其引起的人工成本。手动成本有两个部分。首先,它们中的许多依赖于手工制作的规则(例如句法模式)或特征。要素工程或规则定义需要大量的领域专业知识。真实情况甚至更糟,因为不同谓词的特征或规则通常是不同的。第二,基于监督学习的解决方案需要手动标记的数据。对于提取大量谓词的信息的任务,人工成本通常是令人望而却步的。传统方法不仅需要巨大的人力成本,这些解决方案通常具有相对不可接受的性能,因为它们在处理复杂的自然语言中的弱点:
1.两种方法都不支持文本中的长距离依赖性。大多数提取方法仅使用文本中的局部特征,也就是说,它们通过关注连接x和y的短文本来确定x和y之间的关系。然而,在许多长尾的情况下,关系通过长文本体现,即,在x和y之间存在长距离依赖性。考虑以下示例,其中s=汤姆·拇指(电影),p=主演。“汤姆·拇指是一个1958幻想音乐电影导演乔治·帕尔和米高梅释放。这部电影基于同名的童话故事,是一个小男人,他设法欺骗两个决定从他那里获得财富的盗贼。它主演了拉斯·坦布林的标题角色,主要是英国的支持者(它在好莱坞和伦敦拍摄)...”。
2.关于主语的句子可以包含用于谓词的多个对象,这进一步使模式复杂化并使学习者混淆。例如,下面的句子包含3个对象(诗人,剧作家,演员)的is-A关系。“威廉·莎士比亚是英国诗人,剧作家和演员,广泛...”。
3.我们想要提取的对象可能不一定出现在单个句子中。例如,让s=德怀特·霍华德,p=效力于球队,有效对象包括休斯顿火箭,洛杉矶湖人,奥兰多魔术,出现在多个句子:“...在1995年,奥兰多魔术队选择他...2012年8月10日,霍华德从奥兰多交易到洛杉矶湖人在一个交易...2013年7月5日,通过Twitter宣布,他打算签署与火箭...”。
上述示例清楚地表明,表达主体和对象之间的关系的自然语言的复杂性和丰富性远远超出了固定的手工制作的图案或特征的集合。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海数眼科技发展有限公司,未经上海数眼科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710139457.4/2.html,转载请声明来源钻瓜专利网。