[发明专利]涉案舆情的话题检测方法和装置在审
| 申请号: | 202011304974.0 | 申请日: | 2020-11-19 |
| 公开(公告)号: | CN112417152A | 公开(公告)日: | 2021-02-26 |
| 发明(设计)人: | 刘杰;王佳薇;冀俊宇 | 申请(专利权)人: | 首都师范大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06F40/284;G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 北京易捷胜知识产权代理事务所(普通合伙) 11613 | 代理人: | 齐胜杰 |
| 地址: | 100048 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 涉案 舆情 话题 检测 方法 装置 | ||
本申请属于计算机技术领域,具体涉及一种涉案舆情的话题检测方法和装置。涉案舆情的话题检测方法包括:获取包含案件舆情文本的舆情文本数据;基于预先确定的案件要素信息和关键词在案件舆情文本中的位置,确定关键词的附加权重;根据附加权重和基于TF‑IDF算法确定的基本权重得到舆情文本数据的文本向量表示;通过自编码器对文本向量表示进行降维,得到低维文本向量表示;基于所述低维文本向量表示,采用谱聚类算法进行聚类,以确定案件舆情文本的话题。通过本申请的方法进行话题检测,检测效率和检测准确率高,可及时捕获涉案舆情。
技术领域
本申请属于计算机技术领域,具体涉及一种涉案舆情的话题检测方法和装置。
背景技术
话题检测与跟踪(Topic Detection and Tracking,TDT)是自然语言处理领域的一项技术,它以海量信息流为研究对象,通过对新闻主题的监控和提取,来检测和捕捉用户感兴趣的信息。由于网络中的信息量太大,与话题相关的信息经常散布在不同的地方,并且在不同的时间分布在许多不同的地方,所以仅靠这些孤立的信息,人们很难全面掌握事件的信息。在这种情况下,话题检测技术应运而生,该技术可以帮助人们整合分散的信息,将同一个话题的信息作为一个整体进行组织,以供人们理解。
现有的话题检测方法不考虑案件要素信息,只对舆情文本进行话题检测,由于涉案舆情相似词语较多,将面临着数据特征稀疏问题和维度灾难问题,不仅算法开销大,而且无法有效提取案件特征,导致话题检测的准确率低、检测效率也不高。
发明内容
(一)要解决的技术问题
鉴于现有技术的上述缺点、不足,本申请提供一种涉案舆情的话题检测方法和装置。
(二)技术方案
为达到上述目的,本申请采用如下技术方案:
第一方面,本申请实施例提供一种涉案舆情的话题检测方法,该方法包括:
S10、获取包含案件舆情文本的舆情文本数据;
S20、基于预先确定的案件要素信息,确定所述舆情文本数据中的关键词,基于所述关键词在案件舆情文本中的位置,确定所述关键词的附加权重;
S30、通过TF-IDF算法确定所述舆情文本数据的基本权重,基于所述附加权重和所述基本权重得到所述舆情文本数据的文本向量表示;
S40、通过自编码器对所述文本向量表示进行降维,得到低维文本向量表示;
S50、基于所述低维文本向量表示,采用谱聚类算法进行聚类,以确定案件舆情文本的话题。
可选地,所述案件要素信息包括涉案人员信息、事件信息、法律机关相关信息。
可选地,所述附加权重的计算公式为:
Wa(x)=Len(d)/W1+Len(d)/W2+Len(d)/Wi+...+Len(d)/Wn
其中,d表示案件舆情文本,Len(d)表示案件舆情文本的长度,Wi 是案件要素x第i次出现在文本d中的位置,n为案件要素在文本d中出现的总次数,i为正整数,且取值为1到n。
可选地,基于所述附加权重和所述基本权重得到所述舆情文本数据的文本向量表示,包括:
通过关键词权重公式计算得到关键词权重,所述关键词权重公式为:
W(x)=Wb(x)+Wa(x)/3
其中,Wb(x)表示关键词的基本权重,Wa(x)表示关键词的附加权重;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学,未经首都师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011304974.0/2.html,转载请声明来源钻瓜专利网。





