[发明专利]一种交通事故损害赔偿中法律条文预测方法在审

专利信息
申请号: 201811298288.X 申请日: 2018-10-26
公开(公告)号: CN111191455A 公开(公告)日: 2020-05-22
发明(设计)人: 何铁科;严格;陈振宇;李玉莹 申请(专利权)人: 南京大学
主分类号: G06F40/30 分类号: G06F40/30;G06F40/279;G06F16/35
代理公司: 暂无信息 代理人: 暂无信息
地址: 210093 江苏省南京市*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 交通事故 损害赔偿 法律条文 预测 方法
【权利要求书】:

1.一种交通事故损害赔偿中法律条文预测方法,其特征在于,该方法基于特征提取对事实文本和法律条文进行数据清洗和特征选择,构建用于模型训练的特征和特征向量,使用Twitter LDA学习法条的文本表示,使用word2vec提取案情特征;在此基础上,应用支持向量机方法构建预测模型,生成一个法条预测模型svm-Model;最后,将案情的特征向量输入到svm-Model中,最终生成当前案情涉及到的法律条文;该方法包括下列步骤:

1)分词。给定文本,将完整的语料分成若干词语,事实和法律条文需要分开输入,使用的是目前使用最广泛的中文分词方法——jieba分词法。标记词性并保留词性为n、vn、nt、ns和v的词。删除停用词如标点和语气词。

本步骤的目的是从为后续特征提取做准备。

2)特征提取。用卡方检验进行特征选择,以法条作为分类标签。选择对每类影响最大的1000个单词组成一个词袋,然后对其进行去重。也可以导入外部词汇,以提高准确性。由于词汇专业性很强,一些常见的单词也被添加入停用词,如原告、被告、事故等。本步骤的目的是避免由于分词结果导致矩阵太稀疏,消耗大量内存。

首先构建word2vec模型,提取候选关键字的词向量。与传统的文本表示方法相比,词之间的语义关系在高维空间中得到更好的体现。让Dn表示测试事实,对于给定的文档D,经过分割、部分词性标注、重复数据删除、停止词删除等数据预处理操作,得到n个候选关键字D=[t1,t2,...,tn]。然后遍历它们,提取候选关键词WV=[v1,v2,...,vm]。可以使用K-Means对它们进行聚类,得到每个聚类的中心。本实验中的数据是关于交通事故损害赔偿的,因此一个聚类就足够了。计算单词的欧几里德距离和聚类中心,并进行排序,选择前N个单词作为文档的关键字。

下面是欧几里得距离的方程:

使用Twitter LDA可以更好地理解特征性、信息量大、篇幅短的法条的语义,所以使用LDA处理法条文本。LDA是一种基于贝叶斯模型的生成统计模型。每个文档都可以被看作是各种主题的混合体,其中每个文档都被认为有一组主题通过LDA分配给它。假设在Twitter中存在T个主题,对于主题t,单词分布由表示,而对于背景单词,单词分布由表示,θu表示用户u的主题分布,π是在背景单词和主题单词之间选择的伯努利分布。如算法1和下图所示。用户创建推文,首先基于θu选择主题,然后通过所选主题或背景模型选择一些单词来。

如上所诉,采用两种方法进行特征提取。一个是用案情作为输入,将法条作为标签,在分词之后,不用参考法条的内容进行预测。法律条文的标签序号从1个到204个,每个案件的标签不超过7个。使用word2vec来训练事实文本。另一方法输入事实文本和法律条文,分别构建事实和法律条文的特征向量,使用word2vec来训练事实文本,使用Twitter LDA处理法条文本。本发明共涉及204篇法条,因此将主题数量设置为204篇,并在主题下打印特征词,构建一个词袋,用词袋过滤它的原始文本。

事实文本必须转化成数值才能输入到模型中,将特征提取后的数据进行归一化,归一化的目的是提高缩放不变性机器学习模型的正确率,而且可以加快模型的收敛速度,提高训练速度。

4)建立模型。在将法条视为标签的方法中,将特征向量对和标签对输入到机器学习算法中。这里可以使用一对多策略来处理多标签分类问题。在考虑语义的方法中,可以用一个三元组来表示数据:案情、法律条文、每篇法律条文是否引用。

在分类方面,由于一个案件可以引用多个法律条文,法律条文的预测可以视为一个多标签分类问题。使用χ代表样本空间,R={λ1,λ2,...,λm}代表有限的标签集。假设样本x∈χ有关的一个子集R,L∈2R,R的这个子集被称为一组相关的标签。用向量y=(y1,y1,...ym)表示L,其中yi为0或1,一个多标记分类器h表示映射关系χ→y。为每个样本分配一个标签子集x∈χ。因此,分类器h的输出为向量h(x)=(h1(x),h2(x),...,hm(x))

5)法条预测。在预测过程中,分词后特征提取器将测试数据文档转换为特征向量,将向量输入到我们构建的分类模型中,得到的结果将是一组法律条文,并完成预测任务。在支持向量机中,经过文本预处理、特征提取、特征表示和归一化处理后,原始文本信息已经被抽象为一组矢量化的样本。然后计算样本集与训练模型的相似度,如果不属于该类别,则继续计算样本集与其他模型的相似度,直到被划分为一个类别为止,这是支持向量机模型的文本分类方法。

6)评估方法。通常,标准分类任务使用精确率(P)、召回率(R)和F-measure(F)等常用评价指标。真阴性是指本来是正样例,分类成正样例;真阳性是指本来是负样例,分类成负样例;假阴性是指本来是正样例,分类成负样例;假阳性是指本来是负样例,分类成正样例。当面对一个均衡的分类问题时,准确性可以很好地评价模型,但当数据集不均衡时就不太合适了。同时,多标签分类的评价也应考虑在内。在单标签分类中,准确性是:

如果条件c成立,I[c]返回1,否则返回0。

但是,在多标签分类中,将每个位进行比较似乎过于宽松,而将其视为单个标签则过于严格。精度为:

本发明定义评估方法。如前所述,对每个案例进行7条法条的预测,如果预测结果超过4条,那么单个案例的预测任务被认为是成功的。对于法律条文少于4条的案件,该方法同样适用,它是一个公平的方法。

设D为输入文档集D={d1,d2,...,dn},Prd={Prd1,Prd2,...,Prdn}。对于文件di,设Li为标准答案集合,为用户生成的法条集合。如果概率满足

那么Prdi=1,否则Prdi=0。用PrdA表示我们实验的精度,则

在这个实验中n的值是127352。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811298288.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top