[发明专利]一种面向领域关系抽取的标注语料生成方法有效

申请号：	202110652974.8	申请日：	2021-06-11
公开（公告）号：	CN113378513B	公开（公告）日：	2022-12-23
发明（设计）人：	甘涛;张恒;何艳敏;王志阳	申请（专利权）人：	电子科技大学
主分类号：	G06F40/117	分类号：	G06F40/117;G06F40/169;G06F40/216;G06F40/284;G06F40/289;G06F40/247;G06F40/253;G06F40/211;G06F40/30
代理公司：	电子科技大学专利中心 51203	代理人：	甘茂
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向领域关系抽取标注语料生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向领域关系抽取的标注语料生成方法，包括模型训练和语料生成两个阶段；其特征在于，

A.模型训练，包括以下步骤：

A1.标记实体名；

A1-1.创建一个初始为空的领域实体名集合U；

A1-2.收集领域内的实体名称，并其将添加到领域实体名集合U中；

A1-3.采用中文分词工具对输入的训练句子p进行分词处理，得到分词结果w_i，i＝1,2,...,N_w、N_w为分词得到的词的总个数；

A1-4.从前往后依次考察p中的每一个词w_i，判断w_i是否存在于领域实体名集合U中，若存在，则标记w_i为实体名并对标记的实体名计数，共标记了N_n个实体名；

A2.生成同义句；

A2-1.预设N_n个替换符号、记为m_j，j＝1,2,...,N_n；

A2-2.复制一个与p相同的句子、记为p'；

A2-3.将p'中的每一个实体名n_j(j＝1,2,...,N_n)替换为替换符号m_j，并记录下n_j与m_j的替换关系；

A2-4.使用标准回译法对p'进行回译，得到p'的同义句、记为q'；

A2-5.搜寻q'中的每一个替换符号，并将其按照步骤A2-3记录的替换关系替换回该符号所对应的实体名；

A3.生成掩蔽句子对；

A3-1.对p进行依存句法分析，得到其中每一个实体名的依存关系和相应主动被动语态；

A3-2.对p中的每一个实体名n_j(j＝1,2,...,N_n)作判断，若当前n_j的依存关系属于主谓关系、动宾关系、间宾关系、前置宾语、介宾关系、并列关系和定中关系中的一种，则作：

A3-2-1.复制一个与p相同的句子、记为p”，并复制一个与q'相同的句子、记为q”；

A3-2-2.判断n_j在当前依存关系下的主动被动语态，若n_j为主动语态，则将p”和q”中的n_j均替换预设的主动掩蔽符号Z_a，否则将p”和q”中的n_j均替换预设的被动掩蔽符号Z_p；

A3-2-3.将替换后的p”和q”组成掩蔽句子对，并将其作为序列生成模型的训练语料加入到训练语料库L中；

A4.训练模型；

使用训练语料库L，对通用的序列生成预训练模型进行微调，得到最终的序列生成模型；

B.语料生成，包括以下步骤：

输入数据为关系抽取模型所用的已标注的训练语料，每条语料为一个四元组，其形式为(e1，e2，r，s)，其中，e1表示第一个实体的实体名，e2表示第二个实体的实体名，r表示第一个实体和第二个实体间的关系，s表示训练句子；

B1.掩蔽实体；

B1-1.在输入四元组的句子s中标记实体名e1和e2；

B1-2.对句子s进行依存句法分析，得到e1和e2的依存关系和相应主动被动语态；

B1-3.若e1为主动语态，则将s中的e1和e2分别替换为Z_a和Z_p，否则将s中的e1和e2分别替换为Z_p和Z_a，替换完毕记录e1、e2与Z_a、Z_p的替换关系；

B2.序列生成：

B2-1将s输入到步骤A4得到的序列生成模型中，从模型预测出的序列中，选择预测概率最大的前k个序列作为候选序列；

B2-2.从候选序列中筛选出同时包含Z_a和Z_p的序列作为输出序列；

B3.恢复掩蔽实体：对每一个输出序列s'，将其中的符号Z_a和Z_p按照步骤B1-3记录的替换关系替换回相应符号所对应的实体名；

B4.生成四元组：对每一个恢复掩蔽实体后的输出序列s'，生成并输出四元组(e1，e2，r，s')。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110652974.8/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载