[发明专利]一种基于机器学习的辅助司法案件判决的装置在审
申请号: | 201811001531.7 | 申请日: | 2018-08-29 |
公开(公告)号: | CN109241285A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 毕胜;漆桂林;陈佳敏;周佑勇;王禄生 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27;G06Q50/18 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于机器 描述文本 训练模型 法条 案件 机器学习 司法案件 语义表示 分类 标签 学习 法律条文 司法领域 特征抽取 文书数据 语义特征 单标记 多标记 判决 预测 准确率 抽取 文本 关联 参考 | ||
1.一种基于机器学习的辅助司法案件判决的装置,其特征在于,该装置包括:
数据预处理模块,对现有初始数据中的案件事实描述文本进行预处理,得到每一份文本对应的词语列表;
特征抽取模块,从所述数据预处理模块处理后的词语列表,抽取得到每一份文本对应的具有深层语义表示的特征向量;
模型训练模块,使用所述特征抽取模块处理得到的深层语义表示的特征向量和初始数据中包含的每一份文本对应的判决结果对模型进行训练,得到相关法条预测模型和罚金预测模型;
判决结果预测模块,对一份任意给出的案件事实描述文本经过预处理和特征抽取后得到一个具有深层语义表示的特征向量,将该特征向量分别输入到模型训练模块得到的相关法条预测模型和罚金预测模型,就能得到该案件事实描述文本对应的相关法条和罚金范围。
2.根据权利要求1所述的基于机器学习的辅助司法案件判决的装置,其特征在于,所述初始数据包括案件事实描述文本text,该文本对应的法条标签legalSet,该文本对应的罚金范围penalty,数据预处理模块中的预处理具体包括如下内容:
a)分词操作:将案情事实描述文本通过现有的分词工具拆分成词语列表,
其中,texti是第i份案件事实描述文本,wij是第i案件事实描述文本分词得到的第j个词,mi是第i案件事实描述文本分词得到的得到的词语总数;
b)去停用词:将文本中与语义无关的词语从词语列表中删除,得到新的词语列表;
c)命名实体识别:使用条件随机场和长短期记忆网络进行命名实体识别,得到文本中的时间、组织、人名,并分别用TIME、ORG、PERSON替换。
3.根据权利要求1所述的基于机器学习的辅助司法案件判决的装置,其特征在于,所述特征抽取模块中使用tf-idf、LDA和doc2vec特征抽取方法抽取得到每一份文本对应的具有深层语义表示的特征向量,将下式(a)作为tf-idf、LDA和doc2vec特征抽取方法的输入:
其中wij是第i案件事实描述文本分词得到的第j个词,mi是第i案件事实描述文本分词得到的得到的词语总数,n是初始数据中案件事实描述文本的数量;
分别得到tf-idf特征向量、LDA主题特征向量、doc2vec特征向量,记作:
vec-tfidfi=[ti1,ti2,...,tim]
vec_ldai=[li1,li2,...,lih]
vec_doc2veci=[di1,di2,...,dik]
其中vec_tfidfi是第i篇文本的tf-idf特征向量,tij是vec_tfidfi特征向量的第j位的值,m是数据预处理模块处理得到的所有词语列表中不同词语的个数;
vec_ldai是第i篇文本的LDA特征向量,lij是vec_ldai特征向量的第j位的值,h是文本LDA特征向量的维度;
vec_doc2veci是第i篇文本的doc2vec特征向量,dij是vec_doc2veci特征向量的第j位的值,k是文本doc2vec特征的维度;
然后将所述tf-idf特征向量、LDA主题特征向量、doc2vec特征向量合并得到每一份文本对应的具有深层语义表示的特征向量:
veci=[ti1,ti2,...,tim,li1,li2,...,lih,di1,di2,...,dik]=[vi1,vi2,...,vi(m+h+k)]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811001531.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文档分类方法及装置
- 下一篇:用于生成文本的方法和装置