[发明专利]一种基于多元特征和机器学习的命名实体识别方法有效
申请号: | 202110251787.9 | 申请日: | 2021-03-08 |
公开(公告)号: | CN112989830B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 张士伟;文卫东 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/194;G06F40/242;G06F40/30;G06N3/0442;G06N3/08;G06N20/00 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 许莲英 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多元 特征 机器 学习 命名 实体 识别 方法 | ||
本发明提出了一种基于多元特征和机器学习的命名实体识别方法。本发明将多个原始裁判文书通过分词处理、去除停用词处理得到多个处理后裁判文书单词序列,将处理后裁判文书单词序列中每个单词进行人工标注,构建标签对序列;构建裁判文书命名实体识别模型,所述裁判文书命名实体识别模型由多元特征提取层、双向长短期记忆神经网络层、条件随机场层依次级联构组成;将处理后裁判文书单词序列输入裁判文书命名实体识别模型,通过预测得到每个单词对应的命名实体类别标签和位置标签,结合标签对序列中每个单词的命名实体类别以及每个单词的位置构建损失函数模型,通过优化训练得到优化后裁判文书命名实体识别模型。本发明提升了预测精度。
技术领域
本发明涉及一种交通肇事案件裁判文书命名实体识别方法,更具体地说,涉及一种基于多元特征和机器学习的命名实体识别方法。
背景技术
最高人民法院公布的数据显示,仅2019年上半年,各省(区、市)法院新收案件数量达到1488.9万件,同比上升14.54%。这些海量的案件涉及到了多种多样、错综复杂的信息,给法官和律师等从业人员分析案情带来了沉重的负担。因此,越来越多的法院开始探索运用大数据、人工智能等新技术构建智慧司法体系,其中,命名实体识别(Name EntityRecognition,NER)就是构建智慧司法的关键环节之一,对于法律领域文本的自动信息抽取有着极其重要的意义。命名实体识别一般指识别文本中具有特定意义的实体,如人名、地名、机构名、专有名词等,具体地说,就是识别自然文本中的实体指称的边界和类别。通过在裁判文书语料库上训练命名实体识别模型,可以自动捕捉到案情中的关键信息,进而为事件抽取、相似案件推送、辅助判决等场景提供基础服务。
目前,针对通用领域的命名实体识别已经取得了一些进展,对常见的人名、地名、机构名等实体的识别效果较为理想。但是针对司法领域的命名实体识别研究还处在探索阶段,尤其是对于犯罪后果、责任承担、到案情况、赔偿情况等难度较高的实体识别尚无成熟的方案。
发明内容
本发明针对现有技术的不足,提供一种基于多元特征和机器学习的交通肇事案件裁判文书命名实体识别方法。该方法借助自然语言处理中的预训练语言模型和人工构建的领域词典、双向长短期记忆神经网络和条件随机场模型,对交通肇事案件裁判文书中涉及的命名实体进行识别。
为了实现上述发明目的,解决已有技术中存在的问题,本发明采取的技术方案是:一种基于多元特征和机器学习的命名实体识别方法,包括以下步骤:
步骤1:多个原始裁判文书通过分词处理、去除停用词处理得到多个处理后裁判文书单词序列,将处理后裁判文书单词序列中每个单词进行人工标注,得到每个单词的命名实体类别以及每个单词的位置,进一步构建标签对序列;
步骤2:构建裁判文书命名实体识别模型,所述裁判文书命名实体识别模型由多元特征提取层、双向长短期记忆神经网络层、条件随机场层依次级联构组成;将处理后裁判文书单词序列输入裁判文书命名实体识别模型,通过预测得到每个单词对应的命名实体类别标签和位置标签,进一步结合标签对序列中每个单词的命名实体类别以及每个单词的位置构建损失函数模型,通过优化训练得到优化后裁判文书命名实体识别模型。
作为优选,步骤1所述处理后裁判文书单词序列为:
paperi={wi,1,wi,2,…,wi,n},i∈[1,K]
其中,paperi表示第i个处理后裁判文书单词序列,wi,j表示第i个处理后裁判文书单词序列中第j个单词,n为每个处理后裁判文书单词序列中单词的数量,K表示处理后裁判文书的数量。
步骤1所述构建标签对序列为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110251787.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于双曲几何空间的结构洞节点搜索方法
- 下一篇:一种金银花干燥装置