[发明专利]基于案件要素指导及深度聚类的新闻与案件相关性分析方法有效
| 申请号: | 202010166279.6 | 申请日: | 2020-03-11 |
| 公开(公告)号: | CN111831820B | 公开(公告)日: | 2022-07-19 |
| 发明(设计)人: | 余正涛;李云龙;高盛祥;郭军军;相艳;线岩团 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/34;G06F40/126;G06F40/216 |
| 代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 李筱 |
| 地址: | 650093 云南省昆明*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 案件 要素 指导 深度 新闻 相关性 分析 方法 | ||
本发明涉及基于案件要素指导及深度聚类的新闻与案件相关性分析方法,首先抽取出重要的句子表征文本;其次利用案件要素对案件进行表征,用来初始聚类中心,指导聚类的搜索过程;最后选用卷积自编码器获得文本表征,利用重构损失和聚类损失联合训练网络,使文本的表征更接近于案件,并将文本表征和聚类过程统一到同一框架中,交替更新自编码器参数及聚类模型参数,实现文本聚类。本发明针对当前聚类算法对于新闻与案件相关性分析任务,缺乏有效的指导信息,导致聚类发散,降低了结果的准确性这一问题,充分发挥了案件要素的在聚类过程中以及对文本向量化表征的指导作用,有效提升了聚类结果的准确性。
技术领域
本发明涉及基于案件要素指导及深度聚类的新闻与案件相关性分析方法,属于自然语言处理技术领域。
背景技术
案件领域舆情分析都是以某个案件相关的新闻文本开展的,新闻与案件的相关性分析的目的是判断新闻文本与案件是否相关,是案件领域新闻舆情分析的重要环节,对于案件领域舆情分析具有重要的意义。新闻与案件相关性分析可以看作一个文本聚类过程,即描述同一个案件的新闻文本被聚类到同一个案件簇下。
目前对于文本聚类的相关研究可分为基于统计和基于深度学习两类方法。然而,对于新闻与案件相关性分析任务,由于缺乏有效的指导信息,现有的方法容易导致聚类发散,降低了结果的准确性。
发明内容
本发明提供了基于案件要素指导及深度聚类的新闻与案件相关性分析方法,以用于解决现有聚类方法对于新闻与案件相关性分析任务,缺乏有效的指导信息,容易导致聚类发散,降低了结果的准确性等问题。
本发明的技术方案是:基于案件要素指导及深度聚类的新闻与案件相关性分析方法,包括:
Step1、将案件相关新闻文本利用多种摘要技术进行压缩;采用若干种摘要方法对新闻文本进行摘要的抽取,利用投票的方法对摘要进行合成,提取出重要的信息表征文本,实现文本压缩;
Step2、利用案件要素词向量的均值表征案件,得到案件的向量化表征;
Step3、将压缩后的新闻文本数据通过卷积自编码器,得到文本向量化表征;其中,使用Text-CNN模型编码器,使用反卷积网络来构成解码器部分,并采用最小均方差损失作为卷积自编码的重构损失;
Step4、利用案件的向量化表征来初始聚类中心,将文本向量化表征和聚类过程统一到同一框架中,交替更新自编码器参数及聚类模型参数,实现文本聚类。
对于给定的新闻文本向量集合{Hi}i=1,2,...,N,Hi为第i篇新闻文档通过卷积自编码器得到的向量化表示。本文的任务是将N篇不同案件的新闻文本划分到k个不同的案件簇中,即C={C1,...,Cr,...,Ck}。
进一步地,所述步骤Step1的具体步骤为:
Step1.1、先将多种摘要文本压缩任务形式化描述如下:设一篇新闻文本为S={S1,S2,...,Sp},共包含p个句子,设q种方法生成的摘要分别为L1v,L2v,...,Lqv,简写为L1v:Lqv,其中,每个摘要包含v个句子,共包含o个不同的句子,目标是从L1v:Lqv中选取个z句子作为压缩后的文本;
定义第i种摘要为fi(·),那么:
Liv=fi(S) (1)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010166279.6/2.html,转载请声明来源钻瓜专利网。





