[发明专利]无监督学习统一特征提取器构建方法有效

申请号：	201810117102.X	申请日：	2018-02-06
公开（公告）号：	CN108304359B	公开（公告）日：	2019-06-14
发明（设计）人：	杨楠;曹三省	申请（专利权）人：	中国传媒大学
主分类号：	G06F17/22	分类号：	G06F17/22;G06F17/27;G06Q30/06
代理公司：	北京孚睿湾知识产权代理事务所(普通合伙) 11474	代理人：	韩燕
地址：	100024 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本申请提供一种无监督学习统一特征提取器构建方法，其特征在于：从服务器端获取实际新闻文本数据生成新闻特征训练数据集；将新闻特征训练数据集中的数据进行处理并向量化得到新闻特征训练向量集；将新闻数据集按照用户访问数据进行归类，形成用户特征训练数据集；构建一个有多个隐层的栈式非对称降噪收缩自编码器，使用特定的目标函数对深度自编码器进行训练；在深度自编码器完成训练后，删除解码器部分，加入一个二值化生成层，构建完成无监督学习统一特征提取器。本申请提供的无监督学习统一特征提取器，可以实现新闻特征和用户特征的统一、基于内容推荐和协同过滤推荐的统一，并提高了实时推荐的效率。
搜索关键词：	特征提取器无监督学习构建特征训练编码器统一用户特征用户访问数据解码器训练数据集服务器端目标函数内容推荐数据集中数据生成协同过滤新闻数据新闻文本非对称数据集向量化向量集归类降噪隐层栈式申请删除收缩
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种无监督学习统一特征提取器构建方法，其特征在于，所述构建方法包括以下步骤：S1、从服务器端获取实际新闻文本数据和用户访问数据，经过整理和随机化处理后生成新闻特征训练数据集；S2、使用当前的中文分词工具，将新闻特征训练数据集中的数据进行预处理，得到预处理后的新闻特征训练数据集；S3、将预处理后的新闻特征训练数据集，通过TF‑IDF方法得到新闻特征训练向量集；S4、将新闻特征训练向量集按照用户访问数据进行归类，形成用户特征训练数据集；S5、构建一个有多个隐层的栈式非对称降噪收缩自编码器，使用J_SA‑CDAE作为目标函数：其中，其中k_σ为高斯核，标准差σ取1.0，高斯核函数为：其中，x表示编码器的输入，f_θ()表示编码器的输出，g_θ()表示解码器输出；L_MC()表示单个输入的代价函数，λ是收缩自编码器的正则化参数，||||_F是F范数符号,J(x)是编码器Jacobian矩阵，θ是深度自编码器的参数集，x_i表示一次训练中编码器的输入，表示解码器还原的输出，t代表训练集，z代表高斯核中的代数式；S6、训练深度自编码器，训练步骤如下：S61、将所述新闻特征训练向量集作为所述深度自编码器的训练数据；S62、在所述训练数据中加入高斯白噪声，生成带噪声的输入数据；S63、将所述带噪声的输入数据作为所述深度自编码器的输入，训练时采用批量梯度下降法，先进行无监督逐层预训练，得到各隐层的初始参数，以及输出层的输出数据；S64、在目标函数中对输入的训练数据和输出数据来进行比较，实现梯度的反向传播，对各隐层的初始参数进行调整；S65、训练完成后，得到深度自编码器的参数集；S7、去掉深度自编码器的解码器部分，并在最末隐层的输出之后加入二值化生成层，完成无监督学习统一特征提取器的构建。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国传媒大学，未经中国传媒大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810117102.X/，转载请声明来源钻瓜专利网。

上一篇：基于陆用捷联惯导产品SDCard存储装置的数据解析方法
下一篇：抢单控制方法、设备及计算机可读存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]无监督学习统一特征提取器构建方法有效

专利文献下载