[发明专利]基于多源语义表示融合的弱监督关系抽取方法有效
申请号: | 202010607265.3 | 申请日: | 2020-06-30 |
公开(公告)号: | CN111737497B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 刘宇;倪骏;单世民;赵哲焕;徐秀娟;刘日升;王恺 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/211;G06F40/253;G06F40/30;G06N5/00;G06N3/04 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 梅洪玉 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 表示 融合 监督 关系 抽取 方法 | ||
1.基于多源语义表示融合的弱监督关系抽取方法,其特征在于,具体步骤如下:
(1)数据预处理:提取词语的向量初始化表示作为文本内容特征并选取自然语言工具解析出的离散特征作为文本特性,离散特征包括词法和句法,设计关系抽取任务中语句实例和离散文本特性间通用的一阶逻辑规则;
(2)特征编码表示:定义基于逻辑约束的弱监督语义表示模块进行统计推理,以整合数据预处理得到的离散符号化文本特性生成语句的文本特性低维语义表示向量,作为关系抽取工作的监督特征源;同时,预处理的文本内容词向量表示通过双向门控循环单元编码作为关系抽取的另一监督特征源;
所述基于逻辑约束的弱监督语义表示模块,其执行包括如下步骤:
首先,将语句实例的关系语义表示作为变量,文本特性视为因子函数,逻辑约束充当图结构的边,学习不同实例依逻辑约束关联的因子权重;可能世界对应的向量维度由预先定义的关系类型数目决定;权重学习阶段将远程监督训练集实例中的关系标签转化为独热编码作为一组已知的可能世界集合输入到因子图中,依靠现有训练样本分布学习离散的因子特征在可能世界集中未知的权重值;其目标函数采用最大条件对数似然估计定义如下:f(w)=logP(Y=y|X=x);
其中,P(·)为条件概率,Y对应于整个可能世界集,X代表作为证据的因子函数集;f(w)为目标函数,表示给定因子权重w计算出的关系表示结果;
之后,通过梯度下降法不断迭代学习因子函数集的权重分布,求解最优目标函数;梯度计算公式如下:
其中,Ew[ni(x,y)]代表语义表示模块计算得到的符合证据因子x表述的可能世界y的期望值,ni(x,y)表示第i个特征因子实际对多少个可能世界的实现具有积极作用;因子权重w的学习过程如下:
wj+1=wj*(1.0/(1.0+0.01*sj))-sj*gj
sj+1=sj*d
这里采用梯度下降法对因子权重w进行更新,对步长进行衰减逼近极值;其中,j为当前迭代轮数,s为步长,d为衰减率,g为每步计算的梯度;
然后,依据给定的证据因子及其权重推理未知的可能世界状态;每个可能世界真实状态的概率值的计算如公式所示:
其中,指数形式的因子加权求和使得每个可能世界y都能够采用非负的实值函数来表示可能世界的状态;Z为归一化函数,反映在整个可能世界集中所有因子加权求和计算出的结果;
最后,利用Gibbs采样的方式随机从一个可能世界y开始采样,依据条件概率Pr(y|mb(y))更新可能世界y的状态值;其中,mb(y)表示被检索的与可能世界y相关联的因子函数集;当相邻可能世界的状态均成立的情况下,计算可能世界y不同状态的概率分布并选取最大概率值更新y的状态;待y的状态更新后,扫描所有变量,选取不满足整个可能世界集的部分,重复Gibbs采样过程,待推理迭代轮数结束后,统计每个可能世界的状态值分布情况,并拼接得到关系语义表示向量;
(3)多源语义表示融合:设计多源语义融合网络架构,将文本内容嵌入与文本特性语义表示两种不同的语义特征表示相结合,并引入嵌入实体对表征和权衡机制,削弱人类感知特性信息传递错误的影响,在保证弱监督关系抽取精确性的同时,使得挖掘出更为多样化的关系类型实例;所述的权衡机制具体计算过程如公式所示:
fr'=pber+(1-pb)fr
其中,pb为权衡概率,向量ws,we以及标量bptr均为可学习参数,σ(·)表示使用sigmoid作为激活函数,fr'为权衡机制更新后的文本语句语义表示;fr为文本语句语义表示,er为实体对表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010607265.3/1.html,转载请声明来源钻瓜专利网。