[发明专利]字符串值域切分方法及装置有效
| 申请号: | 201510250681.1 | 申请日: | 2015-05-15 |
| 公开(公告)号: | CN106294371B | 公开(公告)日: | 2019-08-16 |
| 发明(设计)人: | 何健超;陈守元;邓小勇 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/28 |
| 代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许志勇;刘戈 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本申请公开了一种应用于数据仓库集成领域的字符串值域切分方法及装置,该方法包括:提取待抽取数据主键中ASCII码值最大及最小的字符串,根据ASCII码值以及预置的进制基数按权展开求和将字符串转化为大整数,组成待切分范围,求其范围差,根据范围差和预置切分份数对待切分范围进行均等切分,得到切分步长,从而能够得到切分节点对应的大整数,采用辗转相除法将切分节点对应的大整数还原为切分节点字符串,根据切分节点字符串生成多条数据抽取语句,进而实现多线程加速抽取。本申请还对上述方法进行了优化,即在按权展开求和以及辗转相除过程中采用缩小的进制基数。本发明极大地提高了数据传输过程中的并发性、高效性。 | ||
| 搜索关键词: | 字符串 值域 切分 方法 装置 | ||
【主权项】:
1.一种字符串值域切分方法,应用于数据仓库集成领域,其特征在于:提取待抽取数据的主关键字中ASCII码值最大的字符串为第一字符串、ASCII码值最小的字符串为第二字符串;根据预置的进制基数,分别结合第一、第二字符串中相应的单个字符所处的位置序号将所述第一、第二字符串转化为完全不失真的第一大整数和第二大整数,其中所述位置序号是单个字符在相应字符串中的排列次序;根据所述第一大整数和第二大整数求取范围差,判定根据预置的切分份数对所述范围差进行均等切分结果为整数时,将所述整数作为切分步长;根据所述第二大整数与切分步长进行累加求和,得到每个切分节点所对应的大整数,其中,该切分节点由所述均等切分得到;根据所述进制基数将所述每个切分节点对应的大整数还原成ASCII码值,根据ASCII码值得到相应的每个切分节点的节点字符串,根据所述节点字符串对待抽取数据进行切分。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510250681.1/,转载请声明来源钻瓜专利网。





