[发明专利]基于对抗迁移学习的盗窃案件法律文书命名实体识别方法有效

专利信息
申请号: 202010007207.7 申请日: 2020-01-04
公开(公告)号: CN111241837B 公开(公告)日: 2022-09-20
发明(设计)人: 孙媛媛;李春楠;许策;王小鹏 申请(专利权)人: 大连理工大学
主分类号: G06F40/295 分类号: G06F40/295;G06N3/04;G06N3/08
代理公司: 大连星海专利事务所有限公司 21208 代理人: 王树本;徐雪莲
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 对抗 迁移 学习 盗窃 案件 法律文书 命名 实体 识别 方法
【说明书】:

发明涉及一种法律文书命名实体识别方法,一种基于对抗迁移学习的盗窃案件法律文书命名实体识别方法,包括以下步骤:(1)构建法律命名实体数据集,(2)搭建对抗迁移学习神经网络模型,(3)测试模型,(4)结果讨论。本发明方法切实可行且结构清晰,具有参考价值,可以提升法律命名实体识别的精准度,基于法律命名实体识别,可以面向法律知识图谱的构建,可以面向多人多节案件事实分解、证据关联分析和司法知识图谱构建等方面中的应用。

技术领域

本发明涉及一种法律文书命名实体识别方法,更具体地说,涉及一种基于对抗迁移学习的盗窃案件法律文书命名实体识别方法。

背景技术

近年来,随着国家司法改革的持续推进,人工智能技术在司法领域中的应用受到了研究者的广泛关注和各方重视,特别是对海量的法律文书进行智能分析和处理已成为司法人工智能研究的重要内容。而法律文书的命名实体识别,作为司法人工智能领域的的重要性、基础性工作,对多人多节案件事实分解、证据关联分析和司法知识图谱构建等任务都有广泛应用。命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定意义的实体,在CoNLL-2002、CoNLL-2003会议上将命名实体定义为包含名称的短语。目前中文命名实体识别中常用的数据集有《人民日报》、微软、SIGHAN、ACE2005等中文命名实体数据集,这些语料集中在新闻、微博等通用领域,相关命名实体的定义也主要为人名、地名、机构名、时间、日期、货币和百分比等七种通用实体。通用领域命名实体体现了命名实体本质、规律、自然的属性,而司法领域命名实体更强调其对司法业务的服务作用,如表1所示,在通用领域来说“李某”、“周某”都是人名,而在司法领域来说更看重的是“李某”、“周某”犯罪嫌疑人和受害人的属性,而这对后续的司法业务应用是十分重要的。

表1

从表1中可以看出,通用领域命名实体和司法领域命名实体,虽然其领域不同,但其含义和边界却有很多相似或共同的部分,如果有效利用则会对模型的性能有所帮助。目前虽已涌现出许多通用领域的命名实体识别方法,但针对于司法领域的命名实体识别方法的研究仍处在探索阶段,并且对如何利用通用领域命名实体识别结果提升司法领域命名实体的识别性能,目前还没有相关方面的研究。

发明内容

针对现有技术中存在的不足,本发明目的是提供一种基于对抗迁移学习的盗窃案件法律文书命名实体识别方法。该方法基于司法领域的专业知识以及盗窃类案件起诉书文本内容,基于预训练语言模型和对抗学习模型,对盗窃类案件起诉书涉及的司法命名实体进行识别。

为了实现上述发明目的,解决己有技术中存在的问题,本发明采取的技术方案是:一种基于对抗迁移学习的盗窃案件法律文书命名实体识别方法,包括以下步骤:

步骤1、构建法律命名实体数据集,定义所涉及的命名实体含义,构建、标注、调整盗窃类案件命名实体识别数据集并生成训练集、测试集,具体包括以下子步骤:

(a)命名实体的定义,根据司法文书中涉及命名实体所表示的含义和涉及的司法业务,将命名实体区分为自然属性命名实体和司法业务命名实体,自然属性命名实体记做N-NER更侧重于表达实体所代表的的通用、基础的含义,而司法业务命名实体记做L-NER则更多表达司法业务关注的含义;其中自然属性命名实体为时间、地点、人名、物品、货币;司法业务命名实体为时间、地点、犯罪嫌疑人、受害人、其它人、被盗物品、作案工具、其它物品、物品价值、非法获利、实物货币;

(b)根据起诉书文法结构,抽取出部分文书中犯罪事实部分作为数据集,获得有效盗窃类案件犯罪事实数据1900份,按照7:3的比例划分训练集与测试集,训练集与测试集具有相同的数据格式,按照相同的过程完成预处理;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010007207.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top