[发明专利]涉案舆情的话题检测方法和装置在审
| 申请号: | 202011304974.0 | 申请日: | 2020-11-19 |
| 公开(公告)号: | CN112417152A | 公开(公告)日: | 2021-02-26 |
| 发明(设计)人: | 刘杰;王佳薇;冀俊宇 | 申请(专利权)人: | 首都师范大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06F40/284;G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 北京易捷胜知识产权代理事务所(普通合伙) 11613 | 代理人: | 齐胜杰 |
| 地址: | 100048 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 涉案 舆情 话题 检测 方法 装置 | ||
1.一种涉案舆情的话题检测方法,其特征在于,该方法包括:
S10、获取包含案件舆情文本的舆情文本数据;
S20、基于预先确定的案件要素信息,确定所述舆情文本数据中的关键词,基于所述关键词在案件舆情文本中的位置,确定所述关键词的附加权重;
S30、通过TF-IDF算法确定所述舆情文本数据的基本权重,基于所述附加权重和所述基本权重得到所述舆情文本数据的文本向量表示;
S40、通过自编码器对所述文本向量表示进行降维,得到低维文本向量表示;
S50、基于所述低维文本向量表示,采用谱聚类算法进行聚类,以确定案件舆情文本的话题。
2.根据权利要求1所述的涉案舆情的话题检测方法,其特征在于,所述案件要素信息包括涉案人员信息、事件信息、法律机关相关信息。
3.根据权利要求2所述的涉案舆情的话题检测方法,其特征在于,所述附加权重的计算公式为:
Wa(x)=Len(d)/W1+Len(d)/W2+Len(d)/Wi+...+Len(d)/Wn
其中,d表示案件舆情文本,Len(d)表示案件舆情文本的长度,Wi是案件要素x第i次出现在文本d中的位置,n为案件要素在文本d中出现的总次数,i为正整数,且取值为1到n。
4.根据权利要求3所述的涉案舆情的话题检测方法,其特征在于,基于所述附加权重和所述基本权重得到所述舆情文本数据的文本向量表示,包括:
通过关键词权重公式计算得到关键词权重,所述关键词权重公式为:
W(x)=Wb(x)+Wa(x)/3
其中,Wb(x)表示关键词的基本权重,Wa(x)表示关键词的附加权重;
将所述舆情文本数据中非关键词的基本权重作为非关键词权重;
将所述舆情文本数据用所述关键词权重和所述非关键词权重表示,得到所述舆情文本数据的文本向量表示。
5.根据权利要求1所述的涉案舆情的话题检测方法,其特征在于,所述自编码器包括:两层相同的卷积层、中间的隐藏层和输出层,所述卷积层和所述隐藏层的激励函数使用ReLU函数。
6.根据权利要求1所述的涉案舆情的话题检测方法,其特征在于,步骤S50包括:
S51、基于所述低维文本向量表示,构建所述舆情文本数据的相似度矩阵;
S52、通过计算所述相似度矩阵的拉普拉斯矩阵的最小的k个特征值和其对应的特征向量,构建特征向量空间;
S53、利用K-means聚类算法对特征向量空间中的特征向量进行聚类;
S54、根据聚类的结果确定案件舆情文本的话题。
7.根据权利要求6所述的涉案舆情的话题检测方法,其特征在于,对于新增的舆情文本数据,步骤S50还包括:
S55、确定新增的舆情文本数据对应的低维文本向量表示与已分类的舆情文本数据聚类生成的簇的距离;
判断所述距离是否小于预设距离阈值;
若是,认定相应的案件舆情文本属于距离最近的簇对应的话题;
若否,则生成新的簇,根据新的簇确定案件舆情文本的话题。
8.根据权利要求1-7中任一权利要求所述的涉案舆情的话题检测方法,其特征在于,在步骤S10之后、步骤S20之前还包括:
舆情文本数据预处理,所述舆情文本数据预处理包括使用分词库Jieba进行中文分词、去除停用词。
9.一种涉案舆情的话题检测装置,其特征在于,该装置包括:
数据获取模块,用于获取包含案件舆情文本的舆情文本数据;
附加权重确定模块,用于基于预先确定的案件要素信息,确定所述舆情文本数据中的关键词,基于所述关键词在案件舆情文本中的位置,确定所述关键词的附加权重;
文本向量表示模块,用于通过TF-IDF算法确定所述舆情文本数据的基本权重,基于所述附加权重和所述基本权重得到所述舆情文本数据的文本向量表示;
低维文本向量表示模块,用于通过自编码器对所述文本向量表示进行降维,得到低维文本向量表示;
聚类模块,用于基于所述低维文本向量表示,采用谱聚类算法进行聚类,以确定案件舆情文本的话题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学,未经首都师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011304974.0/1.html,转载请声明来源钻瓜专利网。





