[发明专利]基于案件要素指导及深度聚类的新闻与案件相关性分析方法有效
| 申请号: | 202010166279.6 | 申请日: | 2020-03-11 |
| 公开(公告)号: | CN111831820B | 公开(公告)日: | 2022-07-19 |
| 发明(设计)人: | 余正涛;李云龙;高盛祥;郭军军;相艳;线岩团 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/34;G06F40/126;G06F40/216 |
| 代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 李筱 |
| 地址: | 650093 云南省昆明*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 案件 要素 指导 深度 新闻 相关性 分析 方法 | ||
1.基于案件要素指导及深度聚类的新闻与案件相关性分析方法,其特征在于:包括:
Step1、将案件相关新闻文本利用多种摘要技术进行压缩;
Step2、利用案件要素词向量的均值表征案件,得到案件的向量化表征;
Step3、将压缩后的新闻文本数据通过卷积自编码器,得到文本向量化表征;
Step4、利用案件的向量化表征来初始聚类中心,将文本向量化表征和聚类过程统一到同一框架中,交替更新自编码器参数及聚类模型参数,实现文本聚类;
所述Step3包括:
对压缩后的文档构造词向量矩阵,选用卷积自编码器,利用重构损失和聚类损失联合训练网络;
所述Step4是在卷积自编码器前向计算的时候,对文本进行聚类。
2.根据权利要求1所述的基于案件要素指导及深度聚类的新闻与案件相关性分析方法,其特征在于:所述Step1中是采用若干种摘要方法对新闻文本进行摘要的抽取,利用投票的方法对摘要进行合成,提取出重要的信息表征文本,实现文本压缩。
3.根据权利要求1或2所述的基于案件要素指导及深度聚类的新闻与案件相关性分析方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、先将多种摘要文本压缩任务形式化描述如下:设一篇新闻文本为S={S1,S2,...,Sp},共包含p个句子,设q种方法生成的摘要分别为L1v,L2v,...,Lqv,简写为L1v:Lqv,其中,每个摘要包含v个句子,共包含o个不同的句子,目标是从L1v:Lqv中选取个z句子作为压缩后的文本;
定义第i种摘要为fi(·),那么:
Liv=fi(S) (1)
这里,利用7种抽取式摘要方法对新闻文本进行摘要,分别为Lead,Luhn,LSA,LexRank,TextRank,SumBasic,KL-Sum,那么i∈[1,7],即q=7;
选取多个摘要中出现频次最高的z个句子作为压缩后的文本。
4.根据权利要求1所述的基于案件要素指导及深度聚类的新闻与案件相关性分析方法,其特征在于:所述步骤Step2中包括:
若Er={e1,e2,...em}为第r案件的案件要素集合,共包含m个案件要素,对于每一个案件要素ei,都能把它表征为一个d维的词向量wi,即Er={w1,w2,...wm};
那么用案件要素的词向量的均值对案件进行向量化表示:假设Cenr∈Rd为第r个案件的向量化表示,计算方法如下所示:
假设共有k个案件,使用Cen来表示案件的集合,那么:
Cen={Cen1,...,Cenr,...,Cenk} (3)。
5.根据权利要求1所述的基于案件要素指导及深度聚类的新闻与案件相关性分析方法,其特征在于:聚类中心的迭代为采用上一次的聚类中心和当前新分配的聚类中心的组合对聚类中心进行更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010166279.6/1.html,转载请声明来源钻瓜专利网。





