[发明专利]词向量压缩的方法和装置、获取词向量的方法和装置在审

专利信息
申请号: 202111134651.6 申请日: 2021-09-27
公开(公告)号: CN115879451A 公开(公告)日: 2023-03-31
发明(设计)人: 兰国兴;白立勋;孟亚洲;赵磊;许娟婷 申请(专利权)人: 华为技术有限公司
主分类号: G06F40/284 分类号: G06F40/284;G06F40/30;G06F16/174
代理公司: 北京龙双利达知识产权代理有限公司 11329 代理人: 张卿;毛威
地址: 518129 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 向量 压缩 方法 装置 获取
【说明书】:

本申请提供了一种词向量压缩的方法和装置、获取词向量的方法和装置。该词向量压缩的方法包括:获取第一词向量,第一词向量包括N个元素,N≥2;将N个元素进行混合比特存储,其中N个元素中的第一元素与N个元素中的第二元素所占用的比特数不同。相应地,该获取词向量的方法包括:根据第一待处理词汇获取第一压缩词向量,第一压缩词向量包括第一数组,第一数组包括至少一个Q比特数据,其中至少一个Q比特数据所拼接形成的序列包括第一词向量所包括的N个元素拼接形成的第一序列;对第一数组进行解析,获取第一词向量中的N个元素。上述技术方案能够减少词向量存储所需的空间。

技术领域

本申请涉及数据处理技术领域,并且更具体地,涉及一种词向量压缩的方法和装置、获取词向量的方法和装置。

背景技术

自然语言处理(natural language processing,NLP)任务中,一般包括词向量库和具体的任务处理模型。词向量库是由大量语料预先训练得到的词:向量映射关系库,用于将文本中的词转换为数值向量,以供后续任务处理模型进行处理。

基于减少时延、保护用户隐私和减少网络连接等方面的考虑,目前越来越多的自然语言处理任务由服务器转移到客户端设备(例如手机、平板、音箱、手环等)上处理。

客户端设备的存储空间往往较小,因此如何减小词向量库的存储空间,对于客户端设备侧NPL应用显得至关重要。

发明内容

本申请提供一种词向量压缩的方法和装置、获取词向量的方法和装置,能够减少词向量存储所需的空间。

第一方面,提供了一种词向量压缩的方法,包括:获取第一词向量,所述第一词向量包括N个元素,N≥2;将所述N个元素进行混合比特存储,其中所述N个元素中的第一元素与所述N个元素中的第二元素所占用的比特数不同。

本申请实施例中,将第一词向量进行混合比特存储,具体地,第一词向量中的元素在存储时所占用的比特数不完全相同,这样可以将较小的元素的值用较少的比特存储,较大的元素的值用较多的比特存储,避免将词向量中的全部元素使用较多的比特存储,从而可以减少存储词向量所需的空间。

结合第一方面,在一种可能的实现方式中,所述将所述N个元素进行混合比特存储,包括:将所述N个元素按顺序进行拼接,得到第一序列,其中所述第一元素在所述第一序列中占用P个比特,所述第二元素在所述第一序列中占用Q个比特,P<Q,所述第一元素的值属于P个比特能够表示的数值范围,所述第二元素的值属于Q个比特能够表示的数值范围但不属于P个比特能够表示的数值范围;将所述第一序列按照Q个比特一组进行切分,其中不足Q个比特时添0补齐,得到与所述第一词向量对应的第一数组。

第一词向量中的元素占用的比特数不完全相同,但可以通过拼接和切分以同一数据类型进行存储,可以在尽可能减少词向量语义精度损失的情况下,减少词向量的存储空间,并且可以兼容各种版本的编程语言和硬件平台,减低工程实现的难度。

结合第一方面,在一种可能的实现方式中,还包括:获取第二数组,所述第二数组包括N个标志位,所述N个标志位与所述N个元素一一对应,其中所述N个标志位中的一个标志位用于指示所述N个元素中一个元素在所述第一数组中的起始比特位和长度,所述N个标志位中的每个标志位在所述第二数组中占用1比特;将所述第一数组和所述第二数组作为压缩后的词向量进行存储。

这样,在解析还原词向量时,可以根据标志位所指示的N个元素中的每个元素在第一数组中的起始比特位和长度,还原出第一词向量中的N个元素。

结合第一方面,在一种可能的实现方式中,所述获取第一词向量包括:当满足预设条件时,获取所述第一词向量;其中,所述预设条件包括:P*y+Q(N-y)+N*1<Q*N,和/或y/N>1/(Q-P);其中,y为所述第一词向量中包括的第一元素的数量,N-y为所述第一词向量中包括的第二元素的数量。

将满足预设条件的词向量进行混合比特存储,可以尽可能的减少词向量存储的空间。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111134651.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top