[发明专利]一种非结构化数据中的特定实体关系的提取方法有效

专利信息
申请号: 201811007387.8 申请日: 2018-08-31
公开(公告)号: CN109241295B 公开(公告)日: 2021-12-24
发明(设计)人: 束博 申请(专利权)人: 北京天广汇通科技有限公司
主分类号: G06F16/36 分类号: G06F16/36;G06F16/332
代理公司: 北京索睿邦知识产权代理有限公司 11679 代理人: 陈彩芳
地址: 100097 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 结构 数据 中的 特定 实体 关系 提取 方法
【权利要求书】:

1.一种非结构化数据中的特定实体关系的提取方法,其特征是,所述方法首先限定实体关系类型,然后从语料文本中筛选出仅包含该关系类型的语料,并只对一定大小的特征窗口中的语料进行特征识别、组合和提取,同时对实体对进行关系标记,得到实体对的上下文特征以及实体对所包含关系的标记,之后对该标记数据进行学习,得到判断模型,并通过模型准确度的计算,将特征窗口的大小调整到最优,最后利用判断模型从非结构化文本中提取某一特定类型关系的实体对;

所述方法包括以下步骤:

步骤A、数据预处理

具体过程为:

A1.设定实体对的类型,也即设定实体对中第一实体类型E1和第二实体类型E2;设定实体对中两实体关系类型r;

A2.收集语料,从互联网上或文档库中获取若干条文本;

A3.语料预标识,首先对每一条语料文本进行句子分割、分词/词干化,分词为中文,词干化为英文,标识每个词在文本中的位置,即每个词在文本中的顺序数,然后对其进行命名实体标注;

A4.筛选语料,从语料中筛选出那些同时包含属于第一实体类型E1的实体和属于第二实体类型E2的实体的语料;

步骤B、训练基于朴素贝叶斯的关系判断模型

具体步骤为:

B1.生成训练集和测试集

包括2个步骤,具体为:

B11.设置训练集占语料的百分比;

B12.对筛选出的每条语料随机生成一个位于区间[0,1]中的浮点数,如果该数大于步骤B11中所设定的百分比,将该语料归入测试集,否则归为训练集;

B2.关系标识

对训练集和测试集中的每一条语料文本用人工进行关系标注,当某个第一实体类型E1的实体和某个第二实体类型E2的实体之间存在实体关系r时,标注它们之间存在实体关系r;

B3.拟合实体关系的存在情况与距离之间的关系函数

包括4个步骤,具体为:

B31.从训练集和测试集的每一条语料文本中提取每一对符合实体对类型的实体对;

B32.分别用a和b表示实体对中的两个实体,对步骤B31中得到的每个实体对,使用下式计算两实体之间的距离:

d(a,b)=positionb-positiona

其中d(a,b)表示实体a和实体b之间的距离,positiona是实体a在语料文本中的位置,positionb是实体b在语料文本中的位置;

B33.统计训练集语料中存在实体关系r的实体对之间的距离出现的次数,以及不存在实体关系r的实体对之间的距离出现的次数;

B34.设存在实体关系r的实体对之间的距离d与其出现的次数之间的关系可以用下式表示:

其中fp(d)为存在实体关系r的实体对之间的距离d与d出现的次数之间的关系函数,wpi为多项式中指数为i的项的参数;m为自然数,一般可设为3;

利用B33中得到的存在实体关系r的实体对之间的距离出现的次数和距离,使用最小二乘法进行拟合,得到其参数wp1,...,wpm

设不存在实体关系r的实体对之间的距离出现的次数和距离之间的关系可以用下式表示:

其中fn(d)为不存在关系r的实体对之间的距离d与d出现的次数之间的关系函数,wni为多项式中指数为i的项的参数,m为自然数,一般可设为3;

利用B33中得到的不存在实体关系r的实体对之间的距离出现的次数和距离,使用最小二乘法进行拟合,得到其参数wn1,...,wnm

B4.生成属性候选集

包括3个步骤,具体为:

B41.列出所能标注的属性,组成一个属性集S;

B42.列出属性集S的所有子集,构成一个属性集S′;

B43.列出S′的所有子集,构成一个属性集S″;

B5.筛选属性候选集

包括3个步骤,具体为:

B51.对训练集和测试集中的每一条文本中的每个词标注S里的每个属性;

B52.对B43所生成的属性集S″中的每个元素,进行以下5个操作:

B521.对训练集中的每个文本语料中的每个实体对,即实体a-实体b,进行以下3个操作:

B5211.设置ws和we均为0;

B5212.设置该实体对的特征窗口位置为从位置较小的实体的位置减去ws开始到位置较大的实体的位置加上we结束,如果位置较小的实体的位置减去ws小于0,那么特征窗口从0开始,如果位置较大的实体的位置加上we大于文本中最后一个词的位置,那么特征窗口到文本中最后一个词结束,特征窗口中的每个词都是该实体对的特征词;

B5213.对特征窗口中的每个词提取子集S″中的所有属性,组成该实体对的每个词的特征;

B522.计算实体关系r存在的先验概率p(r)和r不存在的先验概率以及存在关系r时关于特征fi的条件概率p′(fi|r),和不存在r时关于特征fi的条件概率

包括3个步骤,具体为:

B5221.在训练集中,统计实体a和实体b存在关系r的情况的数量|r|,以及在存在关系r的情况下每个特征f1,...,fn出现的次数|(f1,r)1,...,|(fn,r)|;

同时也统计实体a和实体b虽然出现在语料中,但实体a和实体b不存在关系r的情况的数量以及该情况下特征f1,...,fn出现的次数

B5222.计算实体a和实体b存在关系r时的先验概率p(r),和实体a和实体b不存在关系r时的先验概率

B5223.对所有fi,其中i∈[1,n],计算实体a和实体b存在关系r时的关于特征fi的条件概率p′(fi|r)并保存:

对所有fi,其中i∈[1,n],计算实体a和实体b不存在关系r时的关于特征fi的条件概率并保存:

B523.对测试集中的每个文本语料c中的每个实体对,即实体a-实体b,使用B5211,B5212,B5213中的方法,提取特征窗口中的每个词的特征fci

B524.计算测试集中的每个文本语料中的每个实体对是否包含实体关系r,包括2个步骤,具体是:

B5241.在步骤B5223保存的p′(fi|r)和中查询由步骤B523提取的特征fci,如果特征fci出现在步骤B5223保存的p′(fi|r)的fi中,那么

p(fci|r)=p′(fi|r)

否则p(fci|r)为所有p′(fi|r)中的最小值min(p′(fi|r)),即:

p(fci|r)=min(p′(fi|r))

如果特征fci出现在步骤B5223保存的的fi中,那么

否则为所有中的最小值即:

B5242.计算语料c中实体a和实体b存在关系r的概率pc(r|x;(a,b)):

当pc(r|x;(a,b))的值大于0时,表示实体a和实体b之间存在关系r;

B525.计算测试集中的参数F1score

其中TP是在测试集的每个语料中实体a和实体b标记为拥有关系r时,计算得到的pc(r|x;(a,b))大于0的实体对的数量;FP是在测试集的每个语料中实体a和实体b标记为不拥有关系r时,计算得到的pc(r|x;(a,b))大于0的实体对的数量;FN是在测试集的每个语料中实体a和实体b标记为拥有关系r,计算得到的pc(r|x;(a,b))不大于0的实体对的数量;

B53.对于属性集S″中的每个子集所对应的参数F1Score,保存其中最大的F1Score所对应的子集,以及对应的p(r),和所有的p(fi|r),

B6.优化特征窗口大小

包括5个步骤,具体为:

B61.设置特征窗口位置为以实体a的位置和实体b的位置中较小的为初始开始位置ps,并包括该位置;较大的为初始结束位置pe,并包括该位置;设置初始F1Score′为0,设置初始F1Score的提高增量xi为区间(0,1)中某一小于设定值的数,设置窗口增量t为0;

B62.重复执行下列步骤,直到前后2次的F1Score的提高增量ΔF1小于xi,ΔF1的计算公式如下:

ΔF1=F1Score′-F1Score

B621.特征窗口的开始位置等于初始开始位置减去窗口增量t,即:

ps=ps-t

对测试集执行步骤B523、步骤B524和步骤B525的操作,得到本次的F1Score,计算ΔF1,如果ΔF1<xi,转至步骤B63,否则执行B622;

B622.更新t、F1Score的值:

t=t+1

F1Score=F1Score

转至步骤B621;

B63.保存窗口开始位置的增量,即ws=t,设置窗口增量t=1;

B64.重复执行下列步骤,直到前后2次的F1Score的提高增量ΔF1小于xi

B641.特征窗口的结束位置等于初始结束位置加上窗口增量t,即:

ps=ps+t

对测试集执行步骤B523、步骤B524和步骤B525的操作,得到本次的F1Score,计算ΔF1,如果ΔF1<xi,转至步骤B65,否则执行B642;

B642.安装步骤B622的方法更新F1Score、t的值,转至步骤B641;

B65.保存窗口结束位置的增量,即we=t;

步骤C、关系提取

包括2个步骤,具体为:

C1.对于要提取关系的文本c,首先进行步骤A3,然后标注步骤B53所得到的子集中涉及的每个属性;

C2.计算关系r是否存在

包括3个步骤,具体为:

C21.根据步骤A1所设置的第一实体类型E1和第二实体类型E2,提取文本c中的所有实体对;

C22.按照步骤B6得到的ws和we设置特征窗口,并按照B53所得到的子集使用步骤B5212和B5213的方法提取特征;

C23.按照步骤B5242的方法计算pc(r|x;(a,b)),当其值大于0时,表示文本c中实体a和实体b之间存在实体关系r。

2.根据权利要求1所述的一种非结构化数据中的特定实体关系的提取方法,其特征是,所述训练集占所筛选语料的百分比设为90%。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京天广汇通科技有限公司,未经北京天广汇通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811007387.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top