[发明专利]基于深层主题模型的大规模文本分类方法有效

申请号：	201611093639.4	申请日：	2016-12-02
公开（公告）号：	CN106599128B	公开（公告）日：	2019-12-27
发明（设计）人：	陈渤;李千勇;丛玉来;郭丹丹	申请（专利权）人：	西安电子科技大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06K9/62
代理公司：	61205 陕西电子工业专利中心	代理人：	王品华;朱红星
地址：	710071 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深层主题模型大规模文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于深层主题模型的大规模文本分类方法，包括：

(1)构建数字信息的训练集和测试集：

从文本语料库中随机选取训练文本集和测试文本集；采用词袋方法将训练文本集和测试文本集的格式由文本信息转化为数字信息的训练集和测试集；

(2)对泊松-伽玛置信网络参数Φ^(l),θ^(l),r,γ₀,c₀,η^(l),p⁽²⁾,c⁽³⁾,a₀,e₀,b₀,f₀,K_l,ε_t进行初始化，其中l表示第l层，Φ^(l)是第l层全局参数矩阵，η^(l)是Φ^(l)的先验分布的第一参数，θ^(l)是第l层隐变量参数矩阵，c⁽³⁾是θ⁽²⁾的先验分布的第二参数向量，p⁽²⁾是θ⁽¹⁾的先验分布的第二参数向量，r是顶层全局参数向量，γ₀是r的先验分布的第一参数，c₀是r的先验分布的第二参数，a₀是γ₀的先验分布的第一参数，b₀是γ₀的先验分布的第二参数，e₀是c₀的先验分布的第一参数，f₀是c₀的先验分布的第二参数，K_l是第l层隐层维度值，l＝0时，K₀是样本维度值，l＝1时，K₁＝128，l＝2时，K₂＝64，ε_t是梯度更新步长初始值；

(3)网络模型训练：

(3a)随机打乱完整数据集样本顺序，将打乱后的完整数据集按每个迷你块数据集样本个数200划分成若干迷你块数据集；设置好迷你块数据集扫描总次数M＝8000，对划分好的迷你块数据集进行扫描；

(3b)选取一个未被训练的迷你块数据集作为当前网络训练的输入数据集，并设置好单个迷你块数据集训练循环次数N＝40；

(3c)在网络模型的每一次训练迭代中，从最底层开始，由下层往上层逐层训练，并在每一层的训练中计算出增广矩阵、层内增广矩阵、层间增广矩阵；

(3d)在网络模型的每一次训练迭代中，当更新完最顶层的全局参数之后，从最顶层开始，由上层往下层逐层更新网络的其他参数；

(3e)当本次选择的迷你块数据集的训练循环次数达到预先设定的循环次数N次时，更新网络各层的全局参数，更新完全局参数后结束本次选择的迷你块数据集的训练，将训练好的全局参数保存到商用软件MATLAB的工作空间，作为下一个迷你块数据集训练时全局参数的初始值，进入下一步，否则，返回到步骤(3c)；

(3f)判断此次划分的所有迷你块数据集是否参与训练，如果是，则进入步骤(3g)，否则返回步骤(3b)；

(3g)判断迷你块数据集的扫描总次数是否达到预先设定的M次，如果是，则结束模型的整个训练过程，并将训练好的全局参数保存到商用软件MATLAB工作空间，进入步骤(4)；否则，返回到步骤(3a)；

(4)网络模型测试训练

(4a)将完整训练集和测试集一起作为测试训练的输入数据，并设置测试训练循环次数K＝600；

(4b)将训练集经过训练后保存下来的全局参数作为测试训练的初始值；

(4c)在测试训练的每一次训练中，从底层向顶层逐层训练，在网络的每一层训练中计算并保存网络其他参数更新时所需的中间变量的结果；

(4d)在训练完顶层之后，由顶层向底层逐层更新网络的其他参数；

(4e)判断测试训练循环次数是否达到预设的K次，如果是，则测试阶段训练完成，保存训练后的所有参数用于文本分类时对分类器的训练，进入步骤(5)；否则，保存该次训练更新后的参数并作为下次训练的初始值，返回到步骤(4c)；

(5)文本分类

(5a)将带有类别标签的训练集数据，以及测试训练得到的参数输入支持向量机SVM中训练支持向量机分类器；

(5b)使用训练好的支持向量机分类器对测试集进行分类，输出预测的文本类别标签；

(5c)对比测试集的正确类别标签和支持向量机分类器输出的预测类别标签，输出网络的文本分类正确率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安电子科技大学，未经西安电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201611093639.4/1.html，转载请声明来源钻瓜专利网。

上一篇：应用于单机服务器的日志存储和查询方法
下一篇：一种顾及地形特点的多波束点云数据去噪方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深层主题模型的大规模文本分类方法有效

专利文献下载