[发明专利]基于BERT和Att-BiLSTM的论点对识别方法在审
| 申请号: | 202011255816.0 | 申请日: | 2020-11-11 |
| 公开(公告)号: | CN112347269A | 公开(公告)日: | 2021-02-09 |
| 发明(设计)人: | 张璞;刘华东;陈鹏;熊安萍 | 申请(专利权)人: | 重庆邮电大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/211;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
| 地址: | 400065 重*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 bert att bilstm 论点 识别 方法 | ||
本发明属于自然语言处理领域,具体涉及一种基于BERT和Att‑BiLSTM的论点对识别方法,包括获取法律判决书中的数据,对数据进行预处理;将预处理的数据输入到训练好的法律论点对分类模型中,识别出诉方辩方相对应的法律论点对,根据法律论点对进行司法判决;所述法律论点对分类模型包括BERT模型和基于注意力长短期记忆循环神经网络Att‑BiLSTM分类模型;本发明在进行数据预测过程中加入了分层Attention机制,该机制为每个单词分配一个注意力权重,并为每个句子分配一个注意力权重,融合了句子级和词级特征,可以将重要特征突出,避免长序列导致的历史记忆变弱的问题,可以有效的提高识别效果。
技术领域
本发明属于自然语言处理领域,具体涉及一种基于BERT和Att-BiLSTM的论点对识别方法。
背景技术
论辩挖掘是从非结构化的文本中自动提取论证结构。论辩挖掘可以应用于许多领域,例如提高人工智能的自动推理能力,或者信息的检索和提取。论辩挖掘主要集中于以下任务:(1)论辩句子检测,识别给定文档中论辩性和非论辩性的句子。(2)论点类型识别,将论辩性句子分为主张(claim)和前提(premise)。(3)论点关系检测,检测论点之间的关系,关系通常分为支持(support)和反对(attack)。
司法领域是最先关注论辩挖掘,也是论辩挖掘最成功的应用领域之一,可以使用论辩挖掘技术在结构化的法律文本集合中提取主张和支持主张的前提,来构建法律文本数据库,查找相似案件或自动司法等。
法律判决书体现了法律中论辩的过程,辩方与诉方围绕争议焦点展开论辩,相应的论辩在庭审中进行整理记录。所以围绕争议焦点展开的论辩对审批现场恢复和辅助判决方面有着关键的作用。
然而,如何从海量法律文本中提取关键信息将是一个巨大的挑战,由于语料库庞大,表达方式多样,门类繁多,手工地识别论辩文本是非常耗时耗力的。使用论辩挖掘技术来自动提取相对应的法律文本对是解决这一问题的有效方法。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种基于BERT和Att-BiLSTM的论点对识别方法,该方法包括:获取法律判决书中的数据,对数据进行预处理;将预处理的数据输入到训练好的法律论点对分类模型中,识别出诉方辩方相对应的法律论点对,根据法律论点对进行司法判决;所述法律论点对分类模型包括BERT模型和基于注意力长短期记忆循环神经网络Att-BiLSTM分类模型;
法律论点对分类模型的训练过程包括:
S1:获取法律判决书中的文本数据;提取文本数据的辩方论点和诉方论点;
S2:辩方论点和诉方论点进行集合,得到数据集;将数据集划分为训练集、验证集以及测试集;
S3:将训练集中的数据输入到BERT模型,得到论点对的语义向量;
S4:将论点对的语义向量输入到Att-BiLSTM分类模型中得到预测分类结果;
S5:根据预测分类结果确定分类损失函数;使用Adam算法不断调整Att-BiLSTM分类模型和BERT模型的参数,当损失函数最小时,完成模型的训练。
优选的,对数据进行预处理的过程包括:
步骤1:将法律判决书根据段落进行划分,得到辩方论点段和诉方论点段;
步骤2:按照句子粒度将辩方论点段和诉方论点段进行划分,去除句子中的停用词,得到句子集合;
步骤3:去除句子集合中的特殊字符及标点符号。
优选的,得到论点对的语义向量的过程包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011255816.0/2.html,转载请声明来源钻瓜专利网。





