[发明专利]裁判文书摘要生成方法、装置、电子设备及可读存储介质在审
| 申请号: | 202011087426.7 | 申请日: | 2020-10-12 |
| 公开(公告)号: | CN112182224A | 公开(公告)日: | 2021-01-05 |
| 发明(设计)人: | 曹辰捷;徐国强;陈家豪 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/34;G06F40/186;G06F40/194;G06F40/289 |
| 代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 裁判 文书 摘要 生成 方法 装置 电子设备 可读 存储 介质 | ||
1.一种裁判文书摘要生成方法,其特征在于,所述方法包括:
解析用户基于客户端发出的裁判文书摘要生成请求,获取所述请求携带的裁判文书;
将所述裁判文书输入训练好的段落类别识别模型,得到所述裁判文书中各个段落的段落类别,所述段落类别包括第一类别及第二类别,将所述裁判文书中第一类别的段落的集合作为段落集;
将所述段落集中各个段落分别与预先配置的摘要模板中的每个短句模板进行相似度匹配,得到所述段落集中各个段落对应的目标短句模板;
将所述段落集中各个段落及其对应的目标短句模板输入训练好的摘要生成模型,得到所述段落集中各个段落对应的目标摘要短句,依照各个段落对应的目标短句模板在摘要模板中的位置顺序对所述目标摘要短句进行拼接,得到所述裁判文书对应的摘要文本。
2.如权利要求1所述的裁判文书摘要生成方法,其特征在于,所述将所述段落集中各个段落分别与预先配置的摘要模板中的每个短句模板进行相似度匹配,得到所述段落集中各个段落对应的目标短句模板,包括:
计算所述段落集中各个段落与摘要模板中每个短句模板的最长公共子序列相似度值;
当某一指定段落与多个短句模板的最长公共子序列相似度值大于相似度阈值时,将最高相似度值对应的短句模板作为所述指定段落对应的目标短句模板。
3.如权利要求2所述的裁判文书摘要生成方法,其特征在于,在计算所述段落集中各个段落与摘要模板中每个短句模板的最长公共子序列相似度值之后,所述方法还包括:
若某一指定段落与所述摘要模板中每个短句模板的最长公共子序列相似度值都小于相似度阈值,则从所述段落集中删除所述指定段落。
4.如权利要求2所述的裁判文书摘要生成方法,其特征在于,在计算所述段落集中各个段落与摘要模板中每个短句模板的最长公共子序列相似度值之后,所述方法还包括:
若所述段落集中有多个段落对应同一个短句模板,则将所述多个段落按照其在所述裁判文书中的段落顺序进行合并形成所述段落集中的一个新段落。
5.如权利要求2所述的裁判文书摘要生成方法,其特征在于,所述最长公共子序列相似度值的计算公式为:
其中,pi为段落集中第i个段落,aj为摘要模板中第j个短句模板,LCS(pi,aj)为段落集中第i个段落与摘要模板中第j个短句模板的最长公共子序列长度,len(aj)为摘要模板中第j个短句模板的长度,len(pi)为段落集中第i个段落的长度,LCSR(pi,aj)为段落集中第i个段落与摘要模板中第j个短句模板的最长公共子序列长度比值上限,LCSP(pi,aj)为段落集中第i个段落与摘要模板中第j个短句模板的最长公共子序列长度比值下限,LCSFscore(pi,aj)为段落集中第i个段落与摘要模板中第j个短句模板的最长公共子序列相似度值。
6.如权利要求1所述的裁判文书摘要生成方法,其特征在于,所述段落类别识别模型的训练过程包括:
获取裁判文书类段落类别对应的多个预设指标,基于所述多个预设指标对第一数据库中的第一裁判文书样本进行段落类别标注;
将携带标注信息的第一裁判文本样本输入所述段落类别识别模型,得到所述第一裁判文本样本中每个段落的预测段落类别;
基于所述标注信息确定所述第一裁判文本样本中每个段落的真实段落类别,通过最小化预测段落类别与真实段落类别之间的损失值确定所述段落类别识别模型的结构参数,得到训练好的段落类别识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011087426.7/1.html,转载请声明来源钻瓜专利网。





