[发明专利]基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法在审
| 申请号: | 202111482375.2 | 申请日: | 2021-12-06 |
| 公开(公告)号: | CN114417852A | 公开(公告)日: | 2022-04-29 |
| 发明(设计)人: | 刘洪涛;方勇 | 申请(专利权)人: | 重庆邮电大学 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/126;G06N3/04 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 黄宗波 |
| 地址: | 400065*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 wasserstein 编码器 混合 分布 作为 先验 主题 建模 方法 | ||
本发明公开了基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法,涉及自然语言处理技术领域。本发明包括以下步骤:将文本数据集表示为传统的词袋模型BOW作为自编码器的输入;数据通过编码器得到主题向量θ;使用高斯混合模型GMM作为一个先验分布,生成潜在的向量表示θ′;对得到的主题分布θ进行解码,将其映射到V个单元的输出层,获得计算输入BOW和输出的重构损失,以及分布θ′和分布θ之间的最大均值差异MMD损失;迭代,更新模型参数对生成模型进行优化。本发明使用MMD来度量先验分布和后验分布之间的差异,并且训练过程中不使用监督信息,能够获得一系列更为多样以及连贯的主题。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法。
背景技术
主题建模是自然语言处理的一项重要任务,传统的主题检测方法主要以词作为基本的特征,通过统计词语之间的共现关系计算主题之间的概率。其广泛应用于例如主题识别、垃圾邮件检测和情感分类等诸多场景,但当预料数较少或者文本篇幅较短时,这种单纯依靠词频统计进行主题分配的方法往往会因为语义信息不足而造成主题识别率不够理想的问题。
近年来,深度学习和机器学习在自然语言处理方面取得很大进展,有研究表明,基于神经网络的模型相较于传统模型(例如朴素贝叶斯)在主题建模任务中会有更好的表现。典型的基于神经网络的主题模型是同样基于单词的,但他们通常使用目标文档中的词作为模型的输入,将单词映射到连续向量空间中(词嵌入),并通过诸如求和、求平均、卷积神经网络(CNN)或循环神经网络(RNN)等方法将这些向量组合起来捕获文档的语义。
除了上述方法,另一种可行的方式便是基于神经网络的变分自编码器改进的主题模型的推理,它旨在利用神经网络刻画包含潜在主题信息的文本生成过程。这一类模型中一般以文档词袋子(BOW)作为输入,和传统模型的区别在于传统主题模型主要涉及到Gibbs采样或者变分推断,这些方法会使得建模假设微小的更改就会导致算法的再次推导,这使得通过编码获取隐变量,再由隐变量模拟生成观察变量的变分自编码器优点突出,这一类模型参数由神经网络训练,且涉及到的参数相对较少,这类模型的缺点是在训练的时候涉及到KL散度模式崩溃的问题。
发明内容
针对上述问题,本发明的目的在于公开基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法,基于Wasserstein自编码器通过高斯混合先验拟合合适的潜在变量生成可观察的词,以最大均值差异MMD最小化先验与后验之间的差距使模型达到最优,训练过程中不使用监督信息,便能够获得一系列更具多样性以及连贯性的主题。
具体的,本发明的基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法,包括如下步骤:
S1:将文本数据集表示为词袋模型BOW作为Wasserstein自编码器的输入,对数据集进行预处理;
S2:利用Wasserstein自编码器将数据通过编码器得到主题分布θ;
S3:采用高斯混合分布作为潜在特征的先验分布,生成潜在的向量表示θ′;
S4:以S2步骤得到的主题分布θ进行解码,将其映射到V个单元的输出层获得词汇中单词的概率分布计算重构损失,并且计算两个分布之间的差异;
S5:迭代,更新模型参数对生成模型进行优化。
进一步,所述S1步骤中,在将文本数据集表示为词袋模型BOW时,一个文档中由所有词表示,表示为:
D(W)={w1,w2,...,wD}。
其中,wi表示文档中的第i个词。
进一步,所述S2步骤中,主题分布θ的表达公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111482375.2/2.html,转载请声明来源钻瓜专利网。
- 一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法
- 一种基于Wasserstein GAN的光伏阵列故障诊断方法
- 基于Wasserstein距离的卷积神经网络对抗迁移学习方法及其应用
- 一种基于深度学习和Wasserstein距离度量的指静脉识别方法
- 一种基于Wasserstein距离的深度对抗迁移网络的故障诊断方法
- 一种基于Sliced-Wasserstein距离的深度自编码进行图像降维并嵌入聚类的方法
- 基于信号分布Wasserstein距离度量的Wi-Fi室内定位方法
- 一种采用Wasserstein距离的差分隐私贪心分组方法
- 基于Wasserstein生成对抗网络模型的高能图像合成方法、装置
- 一种基于Wasserstein距离的物体包络体多视图重建与优化方法





