[发明专利]一种基于深度学习的端到端司法文书自动校对方法在审

专利信息
申请号: 202010751655.8 申请日: 2020-07-30
公开(公告)号: CN111985220A 公开(公告)日: 2020-11-24
发明(设计)人: 朱海麒;姜峰 申请(专利权)人: 哈尔滨工业大学
主分类号: G06F40/253 分类号: G06F40/253;G06K9/62;G06N3/04;G06N3/08
代理公司: 哈尔滨市阳光惠远知识产权代理有限公司 23211 代理人: 刘景祥
地址: 150001 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 端到端 司法 文书 自动 校对 方法
【说明书】:

发明公开了一种基于深度学习的端到端司法文书自动校对方法,属于自然语言处理技术领域。所述自动校对方法包括以下步骤:步骤一、提出Transformer模型结构;步骤二、对所述Transformer模型进行训练,得到最大化模型在训练数据S上的似然;步骤三、在步骤二中得到的似然中引入长度惩罚项,得到解码策略。本发明使用基于自注意力机制的编码器‑解码器模型——Transformer,有效地避免了循环神经网络和卷积神经网络的缺点,提出的方法远超基于循环神经网络和卷积神经网络的编码器‑解码器模型的性能。

技术领域

本发明涉及一种基于深度学习的端到端司法文书自动校对方法,属于自然语言处理技术领域。

背景技术

随着司法领域内的信息化逐步完善,大量的司法类文书随之产生,面对海量的司法文书文本,由人工书写的司法文书必然会存在一些隐含的语法错误,这对传统的以人工为主的校对提出了严峻的挑战。对文本中隐含的语法错误进行纠错不光可以使得行文更为流畅且易于阅读,司法文书作为法律执行的载体,若存在语法错误或逻辑错误将会带来巨大的影响,而基于人工校对处理大量的文本显然是不现实的,这就使得文本纠错技术在近年来越来越受到关注。

相比于机器翻译、自动问答、对话等任务,语法错误纠正任务相对小众,研究社区规模不大,大体来说,语法错误纠正研究在方法论上经历了三个阶段:基于人工规则的方法、基于统计分类器的方法、基于机器翻译的方法。近几年深度学习的兴起,使得一系列端到端的学习方法在自然语言处理(Natural Language Processing,NLP)领域得到应用,机器翻译作为NLP领域的热点研究问题,也逐渐从原来的统计机器翻译(StatisticalMachine Translation,SMT)方法转向了一系列神经机器翻译(Neural MachineTranslation,NMT)方法,例如RNN seq2seq模型、注意力机制、ConvS2S模型和基于自注意力机制的Transformer模型。因此,我们大致把语法错误纠正方法分为四种:基于规则的方法、基于统计分类器的方法、基于SMT的方法以及基于NMT的方法。

基于人工规则的方法有一个关键缺陷,其不能覆盖文本中所有的错误类型。对于某些涉及复杂上下文的语法错误,几乎不可能给出所有的纠错规则,例如,单词搭配错误。此外,纠错规则往往需要人类语言专家给出,这无疑会消耗大量成本。

基于分类器的方法在中文文本纠错任务中并不试用,造成的主要原因是中文的词边界以及庞大的字符集。严格来讲,中文是没有词边界的,中文中并没有词的明确间隔且每个词的长度非常短,并不像英文中存在大量的固定短语,因此,在中文语法错误纠正的过程中,必须考虑上下文的因素,这将会对分类器方法造成很大的困扰。

基于规则的方法是目前应用最为广泛的方法之一,虽然具有准确度高、不需要标注语料与良好的可解释性等优点,但其关键缺陷是无法弥补的,并且在制定规则的过程中,也会消耗相当多的人力物力。基于分类器的方法需要针对不同类型的错误构建不同的分类器和混淆集,而基于SMT的方法则能从平行数据中自动学到混淆集,不需要其他的语言学输入,且使用一个SMT模型即能纠正多种错误类型,更擅长于校对复杂错误。尽管基于SMT的方法具有上述优点,但它依赖于大规模的人工标注平行语料,而基于分类器的方法则能够从无标注语料中学到模型。此外,基于SMT的GEC系统受到泛化能力的限制,且不能够有效地访问更广泛的源端和目标端上下文,于是研究人员们将NMT方法应用到文本自动校对任务中,提出了一系列基于RNN seq2seq的模型。

此外,目前并没有专门针对司法文书的中文文本自动校对方法,而对于司法领域的信息化发展来说,这种专门针对司法文书的中文文本自动校对方法正是他们所需要的。通用的中文文本自动校对方法往往会无法识别司法领域内的专有名词及法律术语,这样会对文本的自动校对造成很大的困扰。从而使得校对准确率并不理想,也无法在实际情况下正常使用。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010751655.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top