[发明专利]一种基于模板库的对象关系抽取系统和抽取方法有效
| 申请号: | 201910583405.5 | 申请日: | 2019-06-28 |
| 公开(公告)号: | CN110390099B | 公开(公告)日: | 2023-01-31 |
| 发明(设计)人: | 冯钧;柳菁铧 | 申请(专利权)人: | 河海大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/295 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李凤娇 |
| 地址: | 210024 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 模板 对象 关系 抽取 系统 方法 | ||
1.一种基于模板库的对象关系抽取系统,包括信息框抽取模块、属性名合并模块、对象关系抽取模块;其特征在于:所述信息框抽取模块用于条目语料库信息框的关系三元组抽取;所述属性名合并模块用于合并所述信息框抽取模块关系三元组中的相似属性名得到种子关系三元组;所述对象关系抽取模块根据种子关系三元组构建模板库实现在文本中抽取对象关系三元组;
所述信息框抽取模块从语料库信息框中抽取条目的关系三元组;所述语料库信息框是对条目的概要描述,从语料库信息框中可以抽取出该条目的关系三元组;
所述属性名合并模块合并信息框抽取模块得到的关系三元组中的相似属性名得到种子关系三元组;属性名合并模块首先通过句法分析得到属性名的核心词,然后利用同义词表计算属性名间的相似性,从而合并相似属性名;
所述对象关系抽取模块用以实现构建模板库并抽取对象关系三元组;对象关系抽取模块预处理条目对应的正文文本得到训练语料和测试语料,然后通过种子关系三元组在训练语料中抽取句子实例,并构建特征向量;最后通过特征聚类和编辑距离对所有句子实例进行泛化构建出关系模板库;通过关系模板库可以在测试语料中抽取出新关系实例。
2.一种利用权利要求1所述的基于模板库的对象关系抽取系统的基于模板库的对象关系抽取方法,其特征在于:包括以下步骤:
步骤1)信息框抽取模块从语料库信息框中抽取所需条目的关系三元组;
步骤2)属性名合并模块合并信息框抽取模块得到的关系三元组中的相似属性名,得到种子关系三元组;
步骤3)对象关系抽取模块抽取信息框抽取模块中所有条目的正文文本;首先对抽取出来的正文文本进行降噪处理,去除文本中多余的超链接和标签;然后对文本进行分句;最后对单句子进行分词、词性识别和命名实体识别;
步骤4)在步骤3)中抽取出种子关系三元组中两个实体共现的句子作为该类关系的句子实例;
步骤5)抽取句子实例的n-gram词语特征、n-gram词性特征、以及距离特征,构建特征向量;
步骤6)替换句子实例中的实体名,得到关系模板;
步骤7)通过步骤5)中的特征对关系模板进行聚类,并根据编辑距离对簇内模板进行泛化;
步骤8)结束。
3.根据权利要求2所述的基于模板库的对象关系抽取方法,其特征在于:
步骤1)中抽取信息框关系三元组具体步骤如下:
步骤11)若关系三元组属性值为多词组成的短语,不是数值或可识别的命名实体,对属性值进行修剪,提取出其中可识别的命名实体作为属性值;
步骤12)若属性值中是并列的同类实体,以特殊符号连接多个并列的同类实体,根据属性值内的特殊符号对属性值进行切分,切分的每一个结果都与该条目构成一个关系三元组。
4.根据权利要求2或3所述的基于模板库的对象关系抽取方法,其特征在于,步骤2)中合并相似属性名具体步骤如下:
步骤21)借助句法分析得到属性名的描述部分,删除描述部分;
步骤22)利用同义词表计算属性名间相似性;如果两个属性名的八位编码完全相同,说明它们是同义词,可以将它们合并为同一个属性名;
如果两个属性名八位编码不完全相同,根据它们的八位编码计算两个属性名间的同义程度;对于两个属性名word1,word2,找出它们在同义词表中的八位编码code1,code2;取八位编码的前七位,按照五层结构对前七位码进行分层,得到word1,word2的五层编码t1,t2;求得t1,t2的公共串t,计算方法如式(1)所示:
其中level是公共串t的最大层数,如果level为0,说明两个编码完全不同,则相似性为0,或者两个八位编码是以“@”结尾,说明这个词在同义词表中是独立的,对应的词之间的相似性也为0;如果level为5,说明两个词的五层结构完全相同,累加五个层级的赋权并加上f(t);f(t)则看八位编码的末位,计算方法如式(2)所示,如果末位是“=”,说明两个词完全相等,它们的相似性为1;如果末位为“#”,说明两个词相似,它们的相似性为0.5;如果level为1~4则从上往下累加相同层级的赋权直至层级不同处,停止累加此时f(t)=0;
计算出两个属性名之间的总的相似性值后判断是否将其合并,合并结束后跳至步骤3)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910583405.5/1.html,转载请声明来源钻瓜专利网。





