[发明专利]基于深层主题模型的大规模文本分类方法有效
申请号: | 201611093639.4 | 申请日: | 2016-12-02 |
公开(公告)号: | CN106599128B | 公开(公告)日: | 2019-12-27 |
发明(设计)人: | 陈渤;李千勇;丛玉来;郭丹丹 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 61205 陕西电子工业专利中心 | 代理人: | 王品华;朱红星 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深层 主题 模型 大规模 文本 分类 方法 | ||
1.基于深层主题模型的大规模文本分类方法,包括:
(1)构建数字信息的训练集和测试集:
从文本语料库中随机选取训练文本集和测试文本集;采用词袋方法将训练文本集和测试文本集的格式由文本信息转化为数字信息的训练集和测试集;
(2)对泊松-伽玛置信网络参数Φ(l),θ(l),r,γ0,c0,η(l),p(2),c(3),a0,e0,b0,f0,Kl,εt进行初始化,其中l表示第l层,Φ(l)是第l层全局参数矩阵,η(l)是Φ(l)的先验分布的第一参数,θ(l)是第l层隐变量参数矩阵,c(3)是θ(2)的先验分布的第二参数向量,p(2)是θ(1)的先验分布的第二参数向量,r是顶层全局参数向量,γ0是r的先验分布的第一参数,c0是r的先验分布的第二参数,a0是γ0的先验分布的第一参数,b0是γ0的先验分布的第二参数,e0是c0的先验分布的第一参数,f0是c0的先验分布的第二参数,Kl是第l层隐层维度值,l=0时,K0是样本维度值,l=1时,K1=128,l=2时,K2=64,εt是梯度更新步长初始值;
(3)网络模型训练:
(3a)随机打乱完整数据集样本顺序,将打乱后的完整数据集按每个迷你块数据集样本个数200划分成若干迷你块数据集;设置好迷你块数据集扫描总次数M=8000,对划分好的迷你块数据集进行扫描;
(3b)选取一个未被训练的迷你块数据集作为当前网络训练的输入数据集,并设置好单个迷你块数据集训练循环次数N=40;
(3c)在网络模型的每一次训练迭代中,从最底层开始,由下层往上层逐层训练,并在每一层的训练中计算出增广矩阵、层内增广矩阵、层间增广矩阵;
(3d)在网络模型的每一次训练迭代中,当更新完最顶层的全局参数之后,从最顶层开始,由上层往下层逐层更新网络的其他参数;
(3e)当本次选择的迷你块数据集的训练循环次数达到预先设定的循环次数N次时,更新网络各层的全局参数,更新完全局参数后结束本次选择的迷你块数据集的训练,将训练好的全局参数保存到商用软件MATLAB的工作空间,作为下一个迷你块数据集训练时全局参数的初始值,进入下一步,否则,返回到步骤(3c);
(3f)判断此次划分的所有迷你块数据集是否参与训练,如果是,则进入步骤(3g),否则返回步骤(3b);
(3g)判断迷你块数据集的扫描总次数是否达到预先设定的M次,如果是,则结束模型的整个训练过程,并将训练好的全局参数保存到商用软件MATLAB工作空间,进入步骤(4);否则,返回到步骤(3a);
(4)网络模型测试训练
(4a)将完整训练集和测试集一起作为测试训练的输入数据,并设置测试训练循环次数K=600;
(4b)将训练集经过训练后保存下来的全局参数作为测试训练的初始值;
(4c)在测试训练的每一次训练中,从底层向顶层逐层训练,在网络的每一层训练中计算并保存网络其他参数更新时所需的中间变量的结果;
(4d)在训练完顶层之后,由顶层向底层逐层更新网络的其他参数;
(4e)判断测试训练循环次数是否达到预设的K次,如果是,则测试阶段训练完成,保存训练后的所有参数用于文本分类时对分类器的训练,进入步骤(5);否则,保存该次训练更新后的参数并作为下次训练的初始值,返回到步骤(4c);
(5)文本分类
(5a)将带有类别标签的训练集数据,以及测试训练得到的参数输入支持向量机SVM中训练支持向量机分类器;
(5b)使用训练好的支持向量机分类器对测试集进行分类,输出预测的文本类别标签;
(5c)对比测试集的正确类别标签和支持向量机分类器输出的预测类别标签,输出网络的文本分类正确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611093639.4/1.html,转载请声明来源钻瓜专利网。