[发明专利]基于跨度和注意力机制的中文实体与关系抽取方法及装置有效
| 申请号: | 202210816017.9 | 申请日: | 2022-07-12 |
| 公开(公告)号: | CN114881038B | 公开(公告)日: | 2022-11-11 |
| 发明(设计)人: | 王海涛;刘昭然 | 申请(专利权)人: | 之江实验室 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/284;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
| 地址: | 311121 浙江省杭州市余*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 跨度 注意力 机制 中文 实体 关系 抽取 方法 装置 | ||
1.一种基于跨度和注意力机制的中文实体与关系抽取方法,其特征在于,包含以下步骤:
将输入的中文语句分词并转换成跨度集合,所述跨度集合中的每个跨度是由相邻k个分词构成的新短语;
将跨度集合中的每个跨度映射为向量空间的词向量集合,再使用预训练语言模型将词向量集合转换生成第一特征表示集合;
通过多层感知器注意力机制将第一特征表示集合生成第二特征表示,所述第二特征表示是句子级注意力融合特征,表示如下:
其中MLP代表全连接神经网络,
将对应的第一特征表示、第二特征表示及占位符拼接作为每个跨度的特征向量,将特征向量输入预训练的第一分类器输出跨度属于每个实体类型的概率,取最大概率所在类型为跨度类型;
将识别出来的同一句子中任意两个具有实体类型的跨度的前后加上跨度的实体类型形成带边界信息和类型信息的跨度;
将两个带边界信息和类型信息的跨度映射为向量空间的词向量,再使用预训练语言模型将词向量集转换生成第三特征表示;
通过多层感知器注意力机制将第三特征表示生成第四特征表示,所述第四特征表示是句子级注意力融合特征;
将两个跨度的第三特征表示、第四特征表示拼接作为关系分类特征c,将关系分类特征c输入预训练的第二分类器输出两个跨度的关系。
2.根据权利要求1所述的方法,其特征在于,所述预训练语言模型为SpanBERT、BERT中的一种。
3.根据权利要求1所述的方法,其特征在于,所述将对应的第一特征表示、第二特征表示及占位符拼接作为每个跨度的特征向量
4.根据权利要求1所述的方法,其特征在于,所述将两个跨度的第三特征表示、第四特征表示拼接作为关系分类特征c具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210816017.9/1.html,转载请声明来源钻瓜专利网。





