[发明专利]案件处理模型的训练方法、案件文本处理方法及相关装置有效
| 申请号: | 202010610510.6 | 申请日: | 2020-06-29 |
| 公开(公告)号: | CN111737416B | 公开(公告)日: | 2022-08-19 |
| 发明(设计)人: | 熊永福 | 申请(专利权)人: | 重庆紫光华山智安科技有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/295;G06F40/30 |
| 代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 李莎 |
| 地址: | 400700 重庆市*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 案件 处理 模型 训练 方法 文本 相关 装置 | ||
本发明实施例提出一种案件处理模型的训练方法、案件文本处理方法及相关装置,涉及自然语言处理领域。该方法通过将案件文本的小类分类和实体抽取两个任务联合训练,实现了共享特征抽取层的结构和权重参数,在增强模型泛化能力的同时减少了模型总参数,达到了仅使用一份训练资源完成文本分类与实体抽取两类任务的目的,相对于将小类分类和实体抽取两个任务独立实施的方式,无论是模型开发效率、资源利用率,还是后期的模型迭代升级、模型维护成本的节约等方面,都有较大幅度的提升。
技术领域
本发明涉及自然语言处理领域,具体而言,涉及一种案件处理模型的训练方法、案件文本处理方法及相关装置。
背景技术
在公安网的大数据与智能化应用的建设当中,如何从大量的历史案件信息当中挖掘出对当前案件侦破有意义价值的信息是案件快速侦破的关键。
目前,对于公安网的历史案件,除了某些易于采集的字段,如案发时间、案发地点、报案人等是存储的结构化信息以外,大多数存储的仅仅是案情的文本描述信息,难以得到充分利用;在案件的分类处理中,也仅是简单的人工大类划分,不利于实际案件利用过程中,案件合并、案件推荐、智能搜索、案件画像等技术的实现。
发明内容
有鉴于此,本发明的目的在于提供一种案件处理模型的训练方法、案件文本处理方法及相关装置,以实现案件文本的小类划分以及案件实体的抽取。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供一种案件处理模型的训练方法,所述方法包括:
获取训练样本数据;所述训练样本数据包括案件文本和所述案件文本对应的标注结果,所述标注结果包括所述案件文本所属小类的类别标注结果和所述案件文本中的实体对应的实体标注结果;
将所述训练样本数据输入预先建立的案件处理模型,利用所述案件处理模型的特征抽取层输出文本特征向量;所述文本特征向量包括文本整体语义的特征表示;
将所述文本整体语义的特征表示输入所述案件处理模型的分类层,得到所述案件文本所属小类的类别预测结果;
将所述文本特征向量输入所述案件处理模型的实体抽取层,得到所述案件文本中的实体对应的实体预测结果;
依据所述类别标注结果、实体标注结果、类别预测结果和实体预测结果更新所述案件处理模型的参数,以得到训练后的案件处理模型。
在可选的实施方式中,所述文本特征向量还包括所述案件文本中每个文本字符对应的特征表示,所述实体抽取层包括激活层和CRF层,所述将所述文本特征向量输入所述案件处理模型的实体抽取层,得到所述案件文本中的实体对应的实体预测结果的步骤包括:
利用所述激活层对所述案件文本中每个文本字符对应的特征表示进行标签分类,得到分类结果;所述分类结果包括每个文本字符对应的特征表示属于不同类别的标签的概率,所述不同类别的标签包括实体的开始部分、实体的非开始部分和非实体部分;
将所述分类结果输入所述CRF层,利用所述CRF层学习到的转移矩阵获得不同标签之间的关联关系,进而得到所述案件文本中的实体对应的实体预测结果;其中,所述转移矩阵中的每个元素表示一个标签转移到另一个标签的概率。
在可选的实施方式中,所述将所述分类结果输入所述CRF层的步骤之后,所述方法还包括:
对所述CRF层的学习率进行扩张处理。
在可选的实施方式中,所述依据所述类别标注结果、实体标注结果、类别预测结果和实体预测结果更新所述案件处理模型的参数,以得到训练后的案件处理模型的步骤包括:
根据所述类别标注结果和所述类别预测结果计算所述分类层的损失函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆紫光华山智安科技有限公司,未经重庆紫光华山智安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010610510.6/2.html,转载请声明来源钻瓜专利网。





