[发明专利]基于递归变分自编码模型的自媒体数据文本表示方法有效
申请号: | 201711417351.2 | 申请日: | 2017-12-25 |
公开(公告)号: | CN108363685B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 王家彬;黄江平 | 申请(专利权)人: | 北京牡丹电子集团有限责任公司数字电视技术中心 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289;G06F40/30;G06N3/08 |
代理公司: | 北京安度修典专利代理事务所(特殊普通合伙) 11424 | 代理人: | 杨方成 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 递归 编码 模型 媒体 数据 文本 表示 方法 | ||
本发明提供一种基于递归变分自编码模型的自媒体数据文本表示方法,该方法包括:对输入的语料文本进行预处理,采用递归神经网络编码模型进行编码,生成固定维度的文本向量;由固定维度的文本向量生成均值向量和方差向量,从标准正态分布中采集样本,利用均值向量、方差向量和样本采用变分推理的方法生成潜在编码表示z;然后采用递归神经网络解码模型对其进行解码得到解码序列,计算编码序列和解码序列之间的编码损失,以及潜在编码表示z和标准正态分布之间的散度,利用编码损失和散度更新递归变分自编码模型的参数。本发明的方法编码性能高,能够更好地适应自媒体数据的编码表示,在对数据的内容进行拟合的同时还能够对数据的分布进行描述。
技术领域
本发明涉及深度学习和自媒体数据文本内容分析技术领域,尤其涉及一种基于递归变分自编码模型的自媒体数据文本表示方法。
背景技术
随着近年来社会媒体的发展,用户生成了大量的自媒体短文本内容,这些文本内容由于缺乏有效的上下文信息,因此采用传统的词袋模型很难表示这类文本。
深度学习源于人工神经网络的研究,含多隐层的多层网络就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习的概念由Hinton等人于2006年提出。基于深度置信网络(DBN)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题,随后提出多层自动编码器深层结构。而由LecunYann等人提出的卷积神经网络是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。深度学习就是从一个输入中产生一个输出所涉及的计算可以通过一个流向图来表示,在这种图中每一个节点表示一个基本的计算以及一个计算的值,计算的结果被应用到这个节点的子节点的值。深度学习模拟了人类认知过程逐层进行,逐步抽象的过程,即首先学习简单的概念,然后用这种方法去表示更抽象的思想和概念。这种方法已经成功应用于计算机视觉、语音识别等领域,尽管近年来深度学习方法应用于自然语言处理的应用受到了很大的关注,但大多基于模型的设计,缺乏对知识的引入。
就文本内容的表示技术而言,传统的自媒体文本内容表示学习大多基于词袋模型并采用独热等词表示方法,这将不可避免地造成词与词之间严重的“词汇鸿沟”现象,即语义相近的词在向量表示中也是相互正交的。虽然这些方法在表示传统的文本时比较有效,但应用于自媒体文本表示则会出现严重的数据稀疏问题。传统的方法通常采用手工特征进行自媒体文本内容表示学习的特征提取,但这种方法依赖于人工经验,对于一些专业领域的自媒体数据则需要相应的专家构建知识库才能较好地实现这些数据文本的表示。
现有技术中有各种数据文本分析方法,但这些数据文本分析方法大多是针对常见或者部分特殊领域的自媒体数据文本内容进行分析,而且这些分析方法通常只采用简单的文本编码对数据进行简单的拟合,缺乏对数据分布的描述,因此造成文本表示不准确等问题。
发明内容
本发明之目的是提供一种基于递归变分自编码模型的自媒体数据文本表示方法,其编码性能高,能够更好地适应自媒体数据的编码表示,并且在对数据的内容进行拟合的同时还能够对数据的分布进行描述。
本发明提供一种基于递归变分自编码模型的自媒体数据文本表示方法,其中,该方法包括以下步骤:
步骤S100、对输入的语料文本进行预处理,得到编码序列;
步骤S200、对所述编码序列采用递归神经网络编码模型进行编码,生成固定维度的文本向量;
步骤S300、由所述固定维度的文本向量生成均值向量和方差向量,然后从标准正态分布中采集样本,利用所述均值向量、所述方差向量和所述样本采用变分推理的方法生成潜在编码表示z;
步骤S400、将所述潜在编码表示z采用递归神经网络解码模型进行解码得到解码序列,计算所述编码序列和所述解码序列之间的编码损失,以及所述潜在编码表示z和标准正态分布之间的散度,利用所述编码损失和所述散度更新递归变分自编码模型的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京牡丹电子集团有限责任公司数字电视技术中心,未经北京牡丹电子集团有限责任公司数字电视技术中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711417351.2/2.html,转载请声明来源钻瓜专利网。