[发明专利]一种基于用弱监督深度学习的文本聚类方法在审

专利信息
申请号: 201811256912.X 申请日: 2018-10-26
公开(公告)号: CN109582782A 公开(公告)日: 2019-04-05
发明(设计)人: 谭敏;俞俊;张海超 申请(专利权)人: 杭州电子科技大学
主分类号: G06F16/35 分类号: G06F16/35;G06K9/62;G06N3/04;G06N3/08
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 朱月芬
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本聚类 文本 权重 深度模型 文本特征 特征图 图像 聚类 矩阵 图像视觉信息 图像数据集 先验 点击信息 迭代更新 均方误差 联合优化 模型学习 特征矩阵 图像类别 图像识别 文本类别 文本模型 有效解决 语义鸿沟 初始化 普适性 最小化 监督 构建 扩增 光滑 学习 排序 传播
【权利要求书】:

1.一种基于用弱监督深度学习的文本聚类方法,其特征在于步骤如下:

(1)、借助有文本点击信息的图像数据集,利用图像视觉信息与图像类别标号,使用图像扩增和聚类构建每个文本的图像类点击特征矩阵;

(2)、在初始的类点击矩阵上用排序和传播的方法得到光滑的图像点击特征图;此特征图上进行文本聚类得到初始的文本类别,同时利用点击先验初始化文本权重;

(3)、在最小化类内均方误差下,搭建深度文本聚类模型学习深度文本特征;

(4)、使用弱监督学习方法对深度模型和文本权重进行联合优化,迭代更新深度模型和文本权重;

(5)、利用深度文本模型提取深度文本特征,实现基于K-means方法的聚类。

2.根据权利要求1所述的一种基于用弱监督深度学习的文本聚类方法,其特征在于步骤(1)所述的借助文本点击信息构建图像类点击特征矩阵,具体如下:

1)提取文本的图像点击向量:通过每张图像的1×Q维的文本点击向量,Q是查询文本集中文本的个数;得到关于所有图像的n×Q维的文本点击矩阵,n为图像的维度;从而对每个文本得到相应的n×1维的图像点击向量;2)对图像进行数据扩增分类:利用图像变换实现图像扩增,并对扩增后的图像数据集针对每个图像类分别进行基于视觉特征的K-means聚类,从而得到每个类别的图像子类;3)构建文本的图像类点击矩阵:聚合文本在每个图像子类上的点击次数,从而将文本原始的图像点击向量转换为图像类点击矩阵;经过这一系列操作后,便可得到图像类点击特征矩阵,这一过程可描述为:

其中,Γ(·)是扩增函数,cluster表示图像K-means聚类,ci,j表示第i张图在文本j下的点击次数,χi={t|yt=i}表示属于第i类的ni张图像,是每类图像的视觉特征经过K-means聚类后得到的类别索引,NI为每类图像的聚类个数。

3.根据权利要求2所述的一种基于用弱监督深度学习的文本聚类方法,其特征在于步骤(2)所述的在类点击矩阵上得到光滑点击特征图;此特征图上进行文本聚类得到初始的文本类别,同时利用点击先验初始化文本权重,具体步骤如下:

2-1.计算视觉相似度,类间相似度和类内相似度的计算方法如下:

2-1-1.类间相似度:利用步骤(1)中129类内各类的子类聚类中心集φ(l)为特征,使用Hausdorff距离依次计算类间相似度S:

2-1-2.类内相似度:利用步骤(1)中129类内各子类的聚类中心为特征,依次计算欧式距离,从而得到类内相似度公式如下:

2-2.根据2-1中计算出来的相似度依次对图像点击矩阵进行类间排序和类内排序,具体:

类间排序是先挑选参考类,然后按照类间图像集的视觉相似度,依次找到近邻类,在图像类点击特征矩阵中可直观表示为矩阵行之间的顺序交换;

类内排序操作与类间排序类似,先挑选参考类,然后根据每类类内图像集的视觉相似度,依次找到近邻类,即矩阵每一行的列元素相互交换位置;

2-3.同样地,传播过程也是一个2-D的操作,包括类间点击量的传播和类内点击量的传播两部分;

(1)类间点击量传播:类别相近的图像间点击信息的分布情况应该相似,因此可将一个图像类的点击总量分享给与它相似的其他图像类别,从而减缓点击数据的稀疏性;上述操作可公式化为:

其中,是经过排序得到的图像类点击特征矩阵,μ是一个中间变量,表示类间点击次数和向量,E是单位矩阵,ρ为传播率,S是使用Hausdorff距离计算得到的类间相似度矩阵;

(2)类内点击量传播:同一类内的图像间点击信息的分布情况应该更加相似,所以将每个图像类内的点击数据分享给与它相似的其他类内图像,即:

其中,是使用公式(2)中归一化得到的特征,E是单位矩阵,分别是传播率和每类内图像间使用欧式距离求得的相似度矩阵,而G就是点击特征图。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811256912.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top