[发明专利]一种卷积自编码器及基于该编码器的词嵌入向量压缩方法有效

申请号：	202010036928.0	申请日：	2020-01-14
公开（公告）号：	CN111507100B	公开（公告）日：	2023-05-05
发明（设计）人：	刘星辰;陈晓峰;麻沁甜	申请（专利权）人：	上海勃池信息技术有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06N3/0464;G06N3/0455;G06N3/08;G06F16/33;G06F16/35;G06F40/58
代理公司：	上海骁象知识产权代理有限公司 31315	代理人：	赵俊寅
地址：	201815 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种卷积编码器基于嵌入向量压缩方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种卷积自编码器，包括：编码层，用于将输入卷积自编码器的向量进行卷积编码，并表示为中间层特征图；解码层，用于将编码层输出的中间层特征图反卷积重构，并输出重构后的重构向量。编码层对输入的向量进行卷积。本发明提供了一种卷积自编码器，能够进行无监督训练，同时对卷积自编码器的中间层特征图及重构向量进行对比计算，直到二者之间没有误差，防止数据出现错误。基于卷积自编码器的词嵌入向量进行压缩方法，对卷积自编码器输出的中间层特征图最大化处理，能够对词嵌入向量进行压缩，可以将对词嵌入向量与多个嵌入模型融合，并获得较低维度的词嵌入向量，从而显著降低计算机的计算量。

技术领域

本发明涉及自然语言处理领域，具体涉及基于卷积自编码器的词嵌入向量压缩方法。

背景技术

用自然语言与计算机进行通信，这是人们长期以来所追求的。人们可以用自己最习惯的语言来使用计算机，而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言。

词嵌入向量在文本分类和机器翻译等自然语言处理任务中应用广泛，同时词嵌入模型种类繁多。词嵌入模型中各词的嵌入向量通常维度较高，若结合多个嵌入模型信息，将会导致非常大的计算量，故生产中通常采用单一词嵌入模型，而无法充分利用多个嵌入模型的信息。

发明内容

针对现有技术的不足，本发明提供基于卷积自编码器的词嵌入向量压缩方法，查询词嵌入向量计算模型，分词序列映射得到映射词嵌入向量，对映射词嵌入向量拼接处理后输入卷积自编码器，最后全局最大化处理后得到最终压缩后的词嵌入向量，能够对数据信息进行压缩，从而保证获得的低维度词嵌入向量。一种卷积自编码器，进行无监督训练时，通过对输入卷积自编码器的海量的向量进行卷积编码处理，并输出中间层特征图，同时对中间层特征图反卷积处理，将反卷积处理后得到的向量与中间层特征图损失计算，可以判断卷积自编码器的训练是否有数据损失，若无数据损失，则卷积自编码器的训练完成。

一种基于卷积自编码器的词嵌入向量压缩方法，包括以下步骤：

步骤1，获取待处理文本的分词序列，并进行预处理；

步骤2，通过查询预设的词嵌入向量计算模型，在步骤1的分词序列中获取每个分词对应的映射词嵌入向量；

步骤3，对步骤2中每一个分词的映射词嵌入向量进行拼接处理，形成单个拼接嵌入向量；

步骤4，将步骤3中拼接嵌入向量输入卷积自编码器，以中间层特征图作为输出；

步骤5，对输出的中间层特征图进行全局最大池化处理，得到最终压缩后的词嵌入向量。

优选地，步骤1中的预处理为对分词序列中特殊符号和停止词进行过滤。

优选地，步骤2中词嵌入向量计算模型包括word2vec、fastText、GloVe中的组合。

优选地，步骤5中全局最大池化处理是指，将卷积自编码器输出的中间层特征图中的每一个特征图池化为单一输出，根据公式(1)进行最大池化处理：

其中j表示池化核的移动步，为l层第i个特征图中第t个单元的值，W表示池化核的宽度，对于全局最大池化，Q等于特征图的宽度，为池化处理的输出。

一种根据权利要求1至4中任意一项权利要求所述的卷积自编码器，包括：

编码层，用于将输入卷积自编码器的拼接嵌入向量进行卷积编码，并输出为中间层特征图；