[发明专利]一种裁判文书实体关系抽取方法及系统有效
申请号: | 201911082739.0 | 申请日: | 2019-11-07 |
公开(公告)号: | CN110837558B | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 成都星云律例科技有限责任公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 熊曦 |
地址: | 610000 四川省成都市高新*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 裁判 文书 实体 关系 抽取 方法 系统 | ||
本发明公开了一种裁判文书实体关系抽取方法及系统,所述方法包括:设定样本数据的格式;将训练样本的格式转换为样本数据的格式,获得格式转换后的训练样本;利用格式转换后的训练样本训练预训练模型bert,获得训练后的模型bert;将待抽取实体关系的裁判文书句子输入训练后的模型bert,输出裁判文书句子中两个实体之间的关系;在同等数据量情况下,本方法及系统效果优于其他关系抽取模型;本方法及系统使用句子信息、实体信息、实体位置信息以及实体类型信息在模型中间拼接,符合关系抽取三元组的天然结构。
技术领域
本发明涉及自然语言处理信息抽取领域,具体地,涉及一种裁判文书实体关系抽取方法及系统。
背景技术
目前,通用的关系抽取方法包括基于规则的关系抽取、基于深度学习CNN等方法的关系抽取等。由于法律关系的多样性(仅民事案件达800多个案由)和文本表述的多样性,基于规则的关系抽取无法在裁判文书领域应用。基于深度学习CNN等方法的关系抽取依赖大量标注数据,需要借助大量不同细分案件领域的专业人员,效率较低且对标注人员要求更高。目前尚无裁判文书领域实体关系抽取的典型案例。
发明内容
本发明的目的在于实现裁判文书中两个实体间关系的抽取。裁判文书在特定区域描述案情事实,将非结构化的案情描述转化为程序可识别的描述方式,是实现案情匹配的重要步骤。本发明实现裁判文书案情事实中实体关系抽取,用于支撑通过三元组形式描述案情。
为实现上述发明目的,本发明一方面提供了一种裁判文书实体关系抽取方法,所述方法包括:
设定样本数据的格式;
将训练样本的格式转换为样本数据的格式,得到格式转换后的训练样本;
利用格式转换后的训练样本训练预训练模型bert,得到训练后的模型bert;
将待抽取实体关系的裁判文书句子输入训练后的模型bert,输出裁判文书句子中两个实体之间的关系。
优选的,预训练模型bert的结构为:
模型的输入为一个明确表示单个裁判文书句子或一对裁判文书句子的token序列。对于给定token,其输入表示通过对相应的token、segment和position embeddings求和进行构造,通过12层双向self-attention处理得到对应token长度表示的768维向量。
优选的,样本数据的格式为:(句子,(实体1,开始位置1,结束位置1,实体类型1),(实体2,开始位置2,结束位置2,实体类型2),实体1与实体2之间的关系),表示一个句子中已知的实体对的关系,添加实体位置信息是为了消除句子中存在多个相同实体时产生的歧义。例如样本数据:(张三在天府大道上开着张三买的奔驰车呼啸而过,(张三,1,2,自然人),(奔驰车,15,18,机动车),驾驶),表示句子“张三在天府大道上开着张三买的奔驰车呼啸而过”对应的实体“张三”和“奔驰车”的关系为“驾驶”,句子中有两个“张三”,位置信息用来区分这两个“张三”,第一个“张三”和“奔驰车”是“驾驶”关系,第二个“张三”和“奔驰车”是“购买”关系。
优选的,模型的训练过程为:
将格式转换后的训练样本输入预训练模型bert;
提取预训练模型bert的CLS位置的输出向量作为裁判文书句子的向量表示,记为sentenceEmbedding;
提取预训练模型bert的输出序列中实体1的开始位置到结束位置对应的向量序列,取向量序列的平均值作为实体1的向量表示,记为ent1Embedding;
提取预训练模型bert的输出序列中实体2的开始位置到结束位置对应的向量序列,取向量序列的平均值作为实体2的向量表示,记为ent2Embedding;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都星云律例科技有限责任公司,未经成都星云律例科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911082739.0/2.html,转载请声明来源钻瓜专利网。