[发明专利]一种文本语料库的关系抽取方法有效

申请号：	202110039879.0	申请日：	2021-01-13
公开（公告）号：	CN112836062B	公开（公告）日：	2022-05-13
发明（设计）人：	黄少滨;姜梦奇;李熔盛;申林山;刘汪洋;杨辉	申请（专利权）人：	哈尔滨工程大学;中电科大数据研究院有限公司
主分类号：	G06F16/36	分类号：	G06F16/36;G06F40/295;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	150001 黑龙江省哈尔滨市南岗区***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本语料库关系抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本语料库的关系抽取方法，其特征在于，包括以下步骤：

步骤1：输入文本语料库和需要抽取的关系实体对集合M；所述的关系实体对集合M中的关系类型由关系实体对e₁，r，e₂表示，关系实体对e₁，r，e₂由描述两个实体间关系的关系特征词r、与关系特征词有主谓关系的实体e₁以及与关系特征词有动宾关系的实体e₂组成；

步骤2：将文本语料库进行分句处理，得到句子集合D；将文本语料库的句子集合D与关系实体对集合M进行匹配，提取文本语料库中包含关系实体对集合M中任意关系实体对e₁，r，e₂的句子，并标记实体e₁和e₂；整合所有提取出的句子，组成句子集合E；

步骤3：对句子集合E中的句子进行分词处理；

步骤3.1：句子S由单词组成，为句子S的左实体，为句子S的右实体，e_l和e_r分别为左实体和右实体的索引；将句子S划分成三部分，第一部分为第二部分为第三部分为

步骤3.2：查找GloVe预训练词向量，把每个索引转换成与之对应单词的词向量，对于不在GloVe预训练词向量中的单词，对其词向量采用随机均匀分布进行初始化，将句子S的第一部分映射为第二部分被映射为第三部分为x_i为单词w_i对应的词向量；

步骤4：将句子集合E中的句子输入训练好的分段循环神经网络中，得到句子集合E中每个句子S的特征向量U；

步骤4.1：将句子S的第一部分输入到第一LSTM中，得到句子S的左上下文表示lc，

步骤4.2：将句子S的第三部分输入到第二LSTM中，得到句子S的右上下文表示rc，

步骤4.3：将句子S的第二部分左上下文表示lc和右上下文表示rc输入到第三LSTM中，得到句子S的特征向量U；

步骤5：将句子集合E中每个句子S的特征向量U和左右实体的关系特征lr连接在一起后进行计算，得到句子集合E中每个句子S的最终特征向量H：

H＝αU

其中，lr＝lc-rc+b，为偏置向量；α＝[α₁,α₂,…,α_k]是句子特征的权重矩阵；

其中，[u_i；lr]表示u_i和lr的直接连接；为中间矩阵；b_a是偏置值；

步骤6：将句子集合E中每个句子S的最终特征向量H输入到softmax分类器中，计算得到每个句子S对应关系实体对集合M中每种关系类型的概率p，取最大概率作为句子S所属的关系类型；

p＝softmax(W_sH+b_s)

其中，W_s是softmax分类器的权重，b_s是偏置。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学;中电科大数据研究院有限公司，未经哈尔滨工程大学;中电科大数据研究院有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110039879.0/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载