[发明专利]一种样本序列化方法和装置有效

申请号：	201610141059.1	申请日：	2016-03-11
公开（公告）号：	CN107180017B	公开（公告）日：	2021-05-28
发明（设计）人：	周俊	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F40/151	分类号：	G06F40/151;H04L29/08
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	苏培华
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种样本序列方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供了一种样本序列化方法和装置，涉及机器训练技术领域。所述方法包括：获取待序列化样本中的各个字符串；根据各字符串与各管理服务器之间的对应关系，确定每个字符串对应的管理服务器；将所述字符串发送至相应的管理服务器，以供各管理服务器根据其维护的映射表，将接收到的字符串转化为相应的序列化ID；其中，不同管理服务器维护的映射表中的字符串互不相同；接收各个管理服务器返回的对应各个字符串的序列化ID；根据接收到的各字符串对应的序列化ID，将各个样本数据中的字符串转换为相应的序列化ID。本申请降低字符串的序列化ID的查询时间，从而可以减少对样本序列化的时间，提高序列化效率。

技术领域

本申请涉及机器训练技术领域，特别是涉及一种样本序列化方法和一种样本序列化装置。

背景技术

在互联网中，基于用户的网络行为能产生大量的数据，而为了研究用户的各种行为习惯等方面，可能会构建各种各样的模型，而为了训练这些模型，一般采用机器学习系统。机器学习系统中，因为样本数据中各个维度的字符串本身可能不是序列化的ID，比如并不是数字ID，而是根据业务需求进行命名的。那么如果直接对样本数据的字符串进行训练，其计算量相对庞大，资源消耗多。

因此，为了降低计算量，进行训练之前，需要将所有的样本数据中的字符串转换成序列化ID，比如数字ID。比如一个样本数据是格式如下：

一共两列：第一列为label列，该label列记录用户是否点击，若记录为1代表用户点击，若记录为0代表用户没有点击；第二列为特征列，该特征列是该条样本的所有特征，用逗号分隔，例如：

1user_id_123,age_1,sex_1,age_comb_city3

则需要将其中的“user_id_123,age_1,sex_1,age_comb_city3”全部转换成数字ID，也就是需要建立如下映射关系：

{字符串集合}-{数字集合}

那么前述“user_id_123,age_1,sex_1,age_comb_city3”转换得到的映射关系为：

user_id_123-数字X，age_1-数字Y,sex_1-数字Z，age_comb_city3-数字F。

但是，在发明人使用过程中发现，当字符串集合元素非常多时，单机内存装载不下，将样本数据序列化的时间非常常长，比如20亿字符串时，每个机器需要的加载完整的映射表，内存超过40G，序列化的时间也非常长。

发明内容

鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种样本序列化方法和相应的一种样本序列化装置。

为了解决上述问题，本申请公开了一种样本序列化方法，包括：

获取待序列化样本中的各个字符串；