[发明专利]一种基于主题信息的类别预测方法及装置在审
| 申请号: | 201910368367.1 | 申请日: | 2019-05-05 |
| 公开(公告)号: | CN110162787A | 公开(公告)日: | 2019-08-23 |
| 发明(设计)人: | 王平辉;韩婷;胡小雨;陶敬;许诺;张珊 | 申请(专利权)人: | 西安交通大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35;G06F16/33;G06N3/04 |
| 代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
| 地址: | 710049 陕*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 主题信息 描述文本 预测 句子 语义向量 方法使用 神经网络 分类器 求和 层级 加权 词语 词汇 文本 刻画 关联 挖掘 申请 案件 法律 | ||
1.一种基于主题信息的类别预测方法,其特征在于,包括:
获取案情描述文本及对应的罪名,构建训练数据集;
构建神经网络模型,使用主题信息识别重点词语与句子,计算案情描述文本语义向量表示;
使用分类器对案情描述文本语义向量进行类别预测。
2.根据权利要求1所述基于主题信息的类别预测方法,其特征在于,构建训练数据集,具体包括:
对案情描述文本进行预处理,文本进行分句分词;
去除停用词,去除文档频率过高的词,去除文档频率过低的词;
将分词后案情描述文本按序排列,构建案情描述文本集合,训练词向量模型,将案情描述文本的词汇进行映射,得到词向量序列。
3.根据权利要求1所述基于主题信息的类别预测方法,其特征在于,为每个案情描述文本计算其主题概率分布,作为主题信息指导案情描述文本语义提取过程。
4.根据权利要求1所述基于主题信息的类别预测方法,其特征在于,所述构建神经网络,具体包括:
使用深度神经网络进行词语间语义计算,得到每个词语的隐含表示;
将词语隐含表示和案情描述文本的主题信息作为词语级别注意力机制的输入,计算每个词语与案情描述文本整体语义的关联程度,将词语语义向量融合得到句子的语义向量表示;
使用深度神经网络进行句子间语义计算,得到每个句子的隐含表示;
将句子隐含表示和案情描述文本的主题信息作为句子级别注意力机制的输入,计算每个句子与案情描述文本整体语义的关联程度,将句子语义向量融合得到案情描述文本语义向量。
5.根据权利要求4所述基于主题信息的类别预测方法,其特征在于,所述构建神经网络,使用主题信息作为词语级别注意力机制的输入,由词语语义向量表示计算句子的语义向量表示。
6.根据权利要求4所述基于主题信息的类别预测方法,其特征在于,所述构建神经网络,使用主题信息作为句子级别注意力机制的输入,由句子语义表征计算文档语义表示。
7.根据权利要求4所述基于主题信息的类别预测方法,其特征在于,所述方法还包括:
对于案情描述文本的语义向量,使用分类器计算案情描述文本在所有类别集合上的概率分布;
将案情描述文本预测的类别概率分布与真实的类别概率分布对比,计算单一案情描述文本的神经网络损失函数值;
计算同一个训练批次中所有案情描述文本的损失值的平均值,得到模型的整体损失;
使用神经网络优化算法优化层级神经网络模型参数。
使用优化后模型预测案情描述文本类别。
8.根据权利要求7所述基于主题信息的类别预测方法,其特征在于,所述案情描述文本类别预测,包括:
选择案情描述文本类别概率分布中概率最大的类别作为最终预测类别。
9.一种基于主题信息的类别预测装置,其特征在于,包括:
预处理模块:对给定的案情描述文本进行分句分词,得到词语序列,将词语转化成词向量表示,得到案情描述文本对应的词向量序列,同时使用预训练的主题模型计算案情描述文本的主题概率分布;
句子语义计算模块:使用深度神经网络在句子的词向量矩阵中计算每个词语的隐含表示,使用主题信息作为词语级别注意力机制的输入,计算句子的语义向量表示;
案情文本语义计算模块:使用深度神经网络对案情文本中所有句子的语义向量进行语义计算,得到每个句子的隐含表示,使用主题信息作为句子级别注意力机制的输入,得到案情描述文本的语义向量表示;
类别预测模块:将案情描述文本的语义向量输入到分类器中,预测案件对应的罪名。
10.根据权利要求9所述基于主题信息的类别预测装置,其特征在于,所述句子语义计算模块,由词语隐含表示经计算得到句子的初步表示,使用主题信息作为词语级别注意力机制的输入,所述案情文本语义计算模块,由句子隐含表示经计算得到案情描述文本的语义表示,使用主题信息作为句子级别注意力机制的输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910368367.1/1.html,转载请声明来源钻瓜专利网。





