[发明专利]一种基于主题信息的类别预测方法及装置在审
| 申请号: | 201910368367.1 | 申请日: | 2019-05-05 |
| 公开(公告)号: | CN110162787A | 公开(公告)日: | 2019-08-23 |
| 发明(设计)人: | 王平辉;韩婷;胡小雨;陶敬;许诺;张珊 | 申请(专利权)人: | 西安交通大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35;G06F16/33;G06N3/04 |
| 代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
| 地址: | 710049 陕*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 主题信息 描述文本 预测 句子 语义向量 方法使用 神经网络 分类器 求和 层级 加权 词语 词汇 文本 刻画 关联 挖掘 申请 案件 法律 | ||
本申请提出一种基于主题信息的类别预测方法及装置,适用于法律文书的罪名预测,在层级神经网络的基础上,根据案情描述文本的主题信息刻画每个句子中每个词汇与案情文本整体的关联,同时通过主题信息确定各个句子的重要性,加权求和得到案情描述文本的语义向量表示,输入到分类器中预测案件对应的罪名。本方法使用主题信息挖掘案情描述文本中的重点词语与句子,能得到更有效的案情描述文本的语义向量表示,从而在低频罪名预测上达到更好的效果。
技术领域
本发明属于文本分类技术领域,特别涉及一种基于主题信息的类别预测方法及装置。
背景技术
近年来,法院的信息化建设不断完善,截止2018年12月,中国裁判文书网已收录并公布超过5900万篇裁判文书,使用人工智能技术对这些司法大数据进行分析、总结、利用成为热点研究话题。
罪名预测是根据裁判文书中的案情描述,预测合理的罪名,可用于审判前的量刑定罪,也可用于审判后的审判公正性评价,有利于实现“同案同判”,确保公平正义。
罪名预测实质上是司法领域的文本类别预测问题:案情描述文本作为待分类文本,案件对应的罪名是文本对应的分类标签。现有方法是使用TF-IDF、卷积神经网络、循环神经网络等方法提取文本的语义特征,再使用分类器对文本语义特征进行分类。但现有方法在进行文本语义特征提取时,仅使用单一的TF-IDF统计特征方法或仅使用单一的神经网络方法,造成了严重的语义流失,由此带来的后果是现有分类方法严重依赖于充足的训练数据,且训练数据中每个类别的训练样本数量需平衡。然而,在司法领域,不同类别案件的发生概率存在天然的不平衡现象,导致收录的不同类别案件对应的裁判文书数量存在巨大的差异,例如,“盗窃”、“诈骗”等罪名对应的案例存在数十万个,而“非法收购、运输、出售珍贵、濒危野生动物制品”罪名仅存在几十例。实际上,高频罪名包含的罪名种类仅占所有罪名的少部分,大部分罪名对应的案例数量较少,直接使用现有文本分类方法在司法数据上进行训练,会使得模型倾向于预测高频罪名,实用性有限。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于主题信息的类别预测方法及装置,用于刻画案情描述中各个语义单元与案情整体的语义关联性,识别重要词汇和句子,解决现阶段文本分类方法中语义缺失、无法预测低频罪名等问题,提高司法智能化程度。
为了实现上述目的,本发明采用的技术方案是:
一种基于主题信息的类别预测方法,包括:
获取案情描述文本及对应的罪名,构建训练数据集;
构建神经网络模型,使用主题信息识别重点词语与句子,计算案情描述文本语义向量表示;
使用分类器对案情描述文本语义向量进行罪名类别预测。
所述构建训练数据集,具体包括:
对案情描述文本进行预处理,文本进行分句分词;
去除停用词,去除文档频率过高的词,去除文档频率过低的词;
将分词后案情描述文本按序排列,构建案情描述文本集合,训练词向量模型,将案情描述文本的词汇进行映射,得到词向量序列。
本发明还包括:为每个案情描述文本计算其主题概率分布,作为主题信息指导案情描述文本语义提取过程。
所述构建神经网络,包括:
使用深度神经网络进行词语间语义计算,得到每个词语的隐含表示;
将词语隐含表示和案情描述文本的主题信息作为词语级别注意力机制的输入,计算每个词语与案情描述文本整体语义的关联程度,将词语语义向量融合得到句子的语义向量表示;
使用深度神经网络进行句子间语义计算,得到每个句子的隐含表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910368367.1/2.html,转载请声明来源钻瓜专利网。





