[发明专利]基于混合自动编码器深度学习的文本分类方法及系统在审
申请号: | 201710852894.0 | 申请日: | 2017-09-20 |
公开(公告)号: | CN107729393A | 公开(公告)日: | 2018-02-23 |
发明(设计)人: | 杨振宇;靖慧 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南圣达知识产权代理有限公司37221 | 代理人: | 张勇 |
地址: | 250353 山东省济南*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 混合 自动 编码器 深度 学习 文本 分类 方法 系统 | ||
1.一种基于混合自动编码器深度学习的文本分类方法,其特征在于,该方法包括:
获取文本数据,进行预处理;
预处理后的文本数据基于混合自动编码器训练模型进行特征学习,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机SRBM加入到收缩自动编码器CAE网络中形成;
将特征学习后的文本数据进行特征分类。
2.如权利要求1所述的一种基于混合自动编码器深度学习的文本分类方法,其特征在于,获取的文本数据为带标签的文本数据,将获取的文本数据形成带标签的文本数据集;
和/或直接获取带标签的文本数据集。
3.如权利要求2所述的一种基于混合自动编码器深度学习的文本分类方法,其特征在于,在该方法中,所述预处理的具体步骤为:
提取带标签的文本数据集中的关键词;
将带标签的文本数据集进行分词,并去除停用词;
计算带标签的文本数据集中的各个关键词的权重,并将不重要的词语进行过滤;
所述权重的计算采用TFIDF算法或改进后的TFIDF算法。
4.如权利要求3所述的一种基于混合自动编码器深度学习的文本分类方法,其特征在于,所述混合自动编码器训练模型包括:
输入层、第一隐含层、第二隐含层和输出层;
所述第一隐含层采用CAE层,输入层与所述第一隐含层的CAE层构成CAE自动编码器网络,输入层为CAE自动编码器网络的可视层,CAE层为CAE自动编码器网络的隐藏层;
所述第二隐含层采用SRBM层,所述第一隐含层的CAE层与所述第二隐含层的SRBM层构成SRBM网络,CAE层为SRBM网络的可视层,SRBM层为SRBM网络的隐藏层。
5.如权利要求4所述的一种基于混合自动编码器深度学习的文本分类方法,其特征在于,所述特征学习采用无监督逐层贪婪训练算法对所述混合自动编码器训练模型进行处理,特征学习的具体步骤为:
输入层获取预处理后的带标签的文本数据集;
根据接收输入层的数据,计算第一隐含层的重构误差,迭代训练第一隐含层,得到第一隐含层参数和第一特征向量;
将第一隐含层输出作为第二隐含层输入,计算第二隐含层的重构误差,迭代训练第二隐含层,得到第二隐含层参数和第二特征向量;
第二隐含层输出作为输出层输入,最终经由输出层输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710852894.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种鱼体尾频检测方法和系统
- 下一篇:一种关于新TAVI模型中s因子的算法