[发明专利]一种裁判文书实体关系抽取方法及系统有效
申请号: | 201911082739.0 | 申请日: | 2019-11-07 |
公开(公告)号: | CN110837558B | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 成都星云律例科技有限责任公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 熊曦 |
地址: | 610000 四川省成都市高新*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 裁判 文书 实体 关系 抽取 方法 系统 | ||
1.一种裁判文书实体关系抽取方法,其特征在于,所述方法包括:
设定样本数据的格式;
将训练样本的格式转换为样本数据的格式,得到格式转换后的训练样本;
利用格式转换后的训练样本训练预训练模型bert,得到训练后的模型bert;
将待抽取实体关系的裁判文书句子输入训练后的模型bert,输出裁判文书句子中两个实体之间的关系;
其中,样本数据的格式为:(句子,(实体1,开始位置1,结束位置1,实体类型1),(实体2,开始位置2,结束位置2,实体类型2),实体1与实体2之间的关系);
其中,预训练模型bert的训练过程为:
将格式转换后的训练样本输入预训练模型bert;
提取预训练模型bert的CLS位置的输出向量作为裁判文书句子的向量表示,记为sentenceEmbedding;
提取预训练模型bert的输出序列中实体1的开始位置到结束位置对应的向量序列,取向量序列的平均值作为实体1的向量表示,记为ent1Embedding;
提取预训练模型bert的输出序列中实体2的开始位置到结束位置对应的向量序列,取向量序列的平均值作为实体2的向量表示,记为ent2Embedding;
将sentenceEmbedding、ent1Embedding和ent2Embedding向量依次进行拼接,得到第一次拼接后的向量;
将第一次拼接后的向量进行变换得到变换后的向量表示,记为vector1;将实体1对应的实体类型转换成向量表示,记为ent1TypeEmbedding;
将实体2对应的实体类型转换成向量表示,记为ent2TypeEmbedding;
将vector1、ent1TypeEmbedding和ent2TypeEmbedding向量依次进行拼接,得到第二次拼接后的向量;
使用softmax层对第二次拼接后的向量进行分类,得到训练后的模型bert。
2.根据权利要求1所述的一种裁判文书实体关系抽取方法,其特征在于,预训练模型bert的结构为:
预训练模型bert的输入为一个明确表示单个裁判文书句子或一对裁判文书句子的token序列;对于给定token,其输入表示通过对相应的token、segment和positionembeddings求和进行构造,通过12层双向self-attention处理得到对应token长度表示的768维向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都星云律例科技有限责任公司,未经成都星云律例科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911082739.0/1.html,转载请声明来源钻瓜专利网。