[发明专利]一种基于深度学习的裁判文书文本纠错方法及系统在审
申请号: | 202010542635.X | 申请日: | 2020-06-15 |
公开(公告)号: | CN111444706A | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 李鑫;王竹;翁洋;其他发明人请求不公开姓名 | 申请(专利权)人: | 四川大学;成都数之联科技有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/295;G06F40/247;G06Q50/18 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 张超 |
地址: | 610000 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 裁判 文书 文本 纠错 方法 系统 | ||
1.一种基于深度学习的裁判文书文本纠错方法,其特征在于,包括以下步骤:
S1:将裁判文书文本中错误检测分为命名实体检测和文本错误检测;
S2:进行命名实体检测时,定义专有名词,并检测裁判文书文本中的专有名词得到命名实体检测结果;
S3:进行文本错误检测时,利用文本错误模型检测裁判文书文本得到文本错误检测结果,并根据纠错词典和裁判文书中上下文词条共现频率建立关联词条;根据关联词条处理文本错误检测结果得到纠错候选集;
S4:根据命名实体检测结果和纠错候选集进行纠错。
2.根据权利要求1所述的一种基于深度学习的裁判文书文本纠错方法,其特征在于,步骤S2包括以下子步骤:
S21:定义专有名词,所述专有名词包括姓名,地名,机构名和/或法规法条;
S22:标注裁判文书文本中的专有名词,以标注后的裁判文书文本为样本训练实体识别模型;
S23:采用实体识别模型对所述裁判文书文本进行命名实体检测得到命名实体检测结果。
3.根据权利要求1所述的一种基于深度学习的裁判文书文本纠错方法,其特征在于,步骤S3包括以下子步骤:
按照句号分割裁判文书得到数据源;
替换数据源中的词语;所述替换包括随机替换、同音字替换和/或形似字替换;
标记替换内容得到替换数据源,利用替换数据源为样本训练;得到文本错误模型。
4.根据权利要求1所述的一种基于深度学习的裁判文书文本纠错方法,其特征在于,步骤S3还包括以下子步骤:
根据关联词条处理文本错误检测结果时,通过字音和/或字形得到纠错候选集。
5.根据权利要求1所述的一种基于深度学习的裁判文书文本纠错方法,其特征在于,步骤S4包括以下子步骤:
提取命名实体检测结果中同类实体的编辑距离,并提示编辑距离超过阈值的实体;
利用裁判文书样本集训练适用于裁判文书的语言模型;
利用语言模型对纠错候选集中的文本评分,将评分最高的文本作为纠错后的文本。
6.一种基于深度学习的裁判文书文本纠错系统,其特征在于,包括:
错误检测单元:用于将裁判文书文本中错误检测分为命名实体检测和文本错误检测;
错误检测单元进行命名实体检测时,定义专有名词,并检测裁判文书文本中的专有名词得到命名实体检测结果;
错误检测单元进行文本错误检测时,利用文本错误模型检测裁判文书文本得到文本错误检测结果,并根据纠错词典和裁判文书中上下文词条共现频率建立关联词条;根据关联词条处理文本错误检测结果得到纠错候选集;
纠错单元:用于根据命名实体检测结果和纠错候选集进行纠错。
7.根据权利要求6所述的一种基于深度学习的裁判文书文本纠错系统,其特征在于,错误检测单元定义专有名词,所述专有名词包括姓名,地名,机构名和/或法规法条;
错误检测单元标注裁判文书文本中的专有名词,以标注后的裁判文书文本为样本训练实体识别模型;
错误检测单元采用实体识别模型对所述裁判文书文本进行命名实体检测得到命名实体检测结果。
8.根据权利要求6所述的一种基于深度学习的裁判文书文本纠错系统,其特征在于,错误检测单元按照句号分割裁判文书得到数据源;
错误检测单元替换数据源中的词语;所述替换包括随机替换、同音字替换和/或形似字替换;
错误检测单元标记替换内容得到替换数据源,利用替换数据源为样本训练,得到文本错误模型。
9.根据权利要求6所述的一种基于深度学习的裁判文书文本纠错系统,其特征在于,错误检测单元根据关联词条处理文本错误检测结果时,通过字音和/或字形得到纠错候选集。
10.根据权利要求6所述的一种基于深度学习的裁判文书文本纠错系统,其特征在于,纠错单元提取命名实体检测结果中同类实体的编辑距离,并提示编辑距离超过阈值的实体;
利用裁判文书样本集训练适用于裁判文书的语言模型;
利用语言模型对纠错候选集中的文本评分,将评分最高的文本作为纠错后的文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学;成都数之联科技有限公司,未经四川大学;成都数之联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010542635.X/1.html,转载请声明来源钻瓜专利网。