[发明专利]一种基于自动编码的文本表示学习方法、系统及电子设备有效
申请号: | 201811287359.6 | 申请日: | 2018-10-31 |
公开(公告)号: | CN109582786B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 曲强;杨敏 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/289 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙) 44316 | 代理人: | 曹卫良 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自动 编码 文本 表示 学习方法 系统 电子设备 | ||
1.一种基于自动编码的文本表示学习方法,其特征在于,包括以下步骤:
步骤a:使用编码器对原始文本进行编码,生成原始文本编码后的向量表达,并通过编码矩阵输出编码后的文本;
步骤b:随机删除所述原始文本中的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;
步骤c:将所述编码后的文本与新的文本输入到解码器中,并通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达;
采用双向长短期记忆的编码网络BI-LSTM作为解码器,双向长短期记忆的编码网络BI-LSTM通过被预测词的上下文和给定文本的编码来预测被预测词的隐含表达;
令和分别为前向长短期记忆网络和反向长短期记忆网络的参数,则:
然后可以通过下式得到
公式(7)中,为与的串联,Wp为可训练的解码矩阵,bp为可训练的偏置值,为t时刻前向网络神经元中的值,为t时刻反向网络神经元中的值;
在解码器训练过程中,以待预测词向量表达与实际词向量表达xt的差值作为训练的损失函数,损失函数设置为:
公式(8)中,cj为表示当前词wj是否被删除的参数:
对于有N个文本的训练集,对编码器及解码器联合,进行端到端的训练,训练目标函数为:
公式(10)中,θe为编码器的参数,θd为解码器的参数,训练过程可用梯度下降方法实现。
2.根据权利要求1所述的基于自动编码的文本表示学习方法,其特征在于,所述步骤a还包括:将所述原始文本中的每个词用预训练好的词向量表示;具体为:设所述原始文本d由n个词组成,d=[w1,w2,…,wi,...,wn],wi为所述原始文本中的第i个词,采用word2vec模型得到每个词的低维向量表达,将所述原始文本中的每个词通过训练好的向量映射到低维空间中。
3.根据权利要求2所述的基于自动编码的文本表示学习方法,其特征在于,在所述步骤a中,所述编码器为长短期记忆网络LSTM;设xi为词wi的低维向量表达,所述长短期记忆网络LSTM中的隐含状态zi更新公式为:
上述公式中,θe表示编码器的待训练参数;
然后,通过如下公式作为原始文本的向量表达:
e=tanh(Wezn+be)
上述公式中,We为一个可训练的编码矩阵,be为可训练的偏置值,Zn为第n个隐含状态。
4.根据权利要求1所述的基于自动编码的文本表示学习方法,其特征在于,在所述步骤c中,所述通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达具体为:假设所述新的文本为{x′1,…,x′n},xzero为一个长度等于|xt|的全0向量:
设xt为位于时间片t的待预测词的实际词向量表达,n为文本长度,DecodeNet为解码网络,则通过解码器预测的词向量表达为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811287359.6/1.html,转载请声明来源钻瓜专利网。