[发明专利]词向量压缩的方法和装置、获取词向量的方法和装置在审
申请号: | 202111134651.6 | 申请日: | 2021-09-27 |
公开(公告)号: | CN115879451A | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 兰国兴;白立勋;孟亚洲;赵磊;许娟婷 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06F16/174 |
代理公司: | 北京龙双利达知识产权代理有限公司 11329 | 代理人: | 张卿;毛威 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 向量 压缩 方法 装置 获取 | ||
本申请提供了一种词向量压缩的方法和装置、获取词向量的方法和装置。该词向量压缩的方法包括:获取第一词向量,第一词向量包括N个元素,N≥2;将N个元素进行混合比特存储,其中N个元素中的第一元素与N个元素中的第二元素所占用的比特数不同。相应地,该获取词向量的方法包括:根据第一待处理词汇获取第一压缩词向量,第一压缩词向量包括第一数组,第一数组包括至少一个Q比特数据,其中至少一个Q比特数据所拼接形成的序列包括第一词向量所包括的N个元素拼接形成的第一序列;对第一数组进行解析,获取第一词向量中的N个元素。上述技术方案能够减少词向量存储所需的空间。
技术领域
本申请涉及数据处理技术领域,并且更具体地,涉及一种词向量压缩的方法和装置、获取词向量的方法和装置。
背景技术
自然语言处理(natural language processing,NLP)任务中,一般包括词向量库和具体的任务处理模型。词向量库是由大量语料预先训练得到的词:向量映射关系库,用于将文本中的词转换为数值向量,以供后续任务处理模型进行处理。
基于减少时延、保护用户隐私和减少网络连接等方面的考虑,目前越来越多的自然语言处理任务由服务器转移到客户端设备(例如手机、平板、音箱、手环等)上处理。
客户端设备的存储空间往往较小,因此如何减小词向量库的存储空间,对于客户端设备侧NPL应用显得至关重要。
发明内容
本申请提供一种词向量压缩的方法和装置、获取词向量的方法和装置,能够减少词向量存储所需的空间。
第一方面,提供了一种词向量压缩的方法,包括:获取第一词向量,所述第一词向量包括N个元素,N≥2;将所述N个元素进行混合比特存储,其中所述N个元素中的第一元素与所述N个元素中的第二元素所占用的比特数不同。
本申请实施例中,将第一词向量进行混合比特存储,具体地,第一词向量中的元素在存储时所占用的比特数不完全相同,这样可以将较小的元素的值用较少的比特存储,较大的元素的值用较多的比特存储,避免将词向量中的全部元素使用较多的比特存储,从而可以减少存储词向量所需的空间。
结合第一方面,在一种可能的实现方式中,所述将所述N个元素进行混合比特存储,包括:将所述N个元素按顺序进行拼接,得到第一序列,其中所述第一元素在所述第一序列中占用P个比特,所述第二元素在所述第一序列中占用Q个比特,P<Q,所述第一元素的值属于P个比特能够表示的数值范围,所述第二元素的值属于Q个比特能够表示的数值范围但不属于P个比特能够表示的数值范围;将所述第一序列按照Q个比特一组进行切分,其中不足Q个比特时添0补齐,得到与所述第一词向量对应的第一数组。
第一词向量中的元素占用的比特数不完全相同,但可以通过拼接和切分以同一数据类型进行存储,可以在尽可能减少词向量语义精度损失的情况下,减少词向量的存储空间,并且可以兼容各种版本的编程语言和硬件平台,减低工程实现的难度。
结合第一方面,在一种可能的实现方式中,还包括:获取第二数组,所述第二数组包括N个标志位,所述N个标志位与所述N个元素一一对应,其中所述N个标志位中的一个标志位用于指示所述N个元素中一个元素在所述第一数组中的起始比特位和长度,所述N个标志位中的每个标志位在所述第二数组中占用1比特;将所述第一数组和所述第二数组作为压缩后的词向量进行存储。
这样,在解析还原词向量时,可以根据标志位所指示的N个元素中的每个元素在第一数组中的起始比特位和长度,还原出第一词向量中的N个元素。
结合第一方面,在一种可能的实现方式中,所述获取第一词向量包括:当满足预设条件时,获取所述第一词向量;其中,所述预设条件包括:P*y+Q(N-y)+N*1<Q*N,和/或y/N>1/(Q-P);其中,y为所述第一词向量中包括的第一元素的数量,N-y为所述第一词向量中包括的第二元素的数量。
将满足预设条件的词向量进行混合比特存储,可以尽可能的减少词向量存储的空间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111134651.6/2.html,转载请声明来源钻瓜专利网。