[发明专利]商品自动化采集与迁移方法在审

专利信息
申请号: 201910051199.3 申请日: 2019-01-18
公开(公告)号: CN109711951A 公开(公告)日: 2019-05-03
发明(设计)人: 文付军;郭建丰 申请(专利权)人: 中合金网(北京)电子商务有限公司
主分类号: G06Q30/06 分类号: G06Q30/06
代理公司: 北京细软智谷知识产权代理有限责任公司 11471 代理人: 葛钟
地址: 101149 北京市通*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据包 预设 数据库 迁移 页面 源数据 采集 自动化 源数据存储 劳动效率 商品数据 数据迁移 异构系统 遍历 匹配 工作量 分析 开发 学习
【说明书】:

发明属于商品数据采集与迁移技术领域,具体涉及一种商品自动化采集与迁移方法,包括如下步骤:S1,设置商品页面URL规则以及URL中的变量;S2,遍历符合S1中设置好的URL规则的所有变量的URL的商品源数据,并将商品源数据存储到数据库一中;S3,对数据库一中的商品源数据进行分析学习,将分析结果以数据包的形式存入数据库二中;S4,将数据库二中的数据包按照预设平台页面规则进行匹配,形成预设数据包;S5,将S4中的预设数据包迁移到预设平台页面。本发明的方法省去了技术人员的开发对接工作,为异构系统之间的数据迁移节省了很大工作量,提高了劳动效率。

技术领域

本发明属于商品数据采集与迁移技术领域,具体涉及一种商品自动化采集与迁移方法。

背景技术

相关技术中,业内的商品数据采集方法可以具备采集淘宝、天猫、京东、国美在线、苏宁易购等一线电商平台中的商品数据的功能,包括商品标题、主图、价格等属性数据,其优点是已经满足了一线电商平台的在线商家的需求,使用起来也很方便。但是也存在一些不足,具体如下:

只支持固定页面格式的电商数据采集,如果电商平台页面结构发生变化,则此类采集方法会受到很大制约。另外,该采集方式也不支持二线电商平台的数据采集与自动化迁移,比如,某省或市县级的供销社电商平台中的商品数据就无法通过此类工具进行采集和数据迁移,如要完成此项工作,目前还是以人工重新录入、投入开发人员对接等方式来完成,无疑是增加了很大的成本。

商品详情页的数据不支持与原系统保持一致,特别是图文混排的详情数据,在导入新系统后往往还需要人工重新编辑一次。

发明内容

有鉴于此,本发明的目的在于克服现有技术的不足,提供一种商品自动化采集与迁移方法,以解决现有技术中商品数据的采集方法不适用复杂多变的电商平台页面结构的技术问题,以及改善受制于该采集方法而增加劳动成本的弊端。

为实现以上目的,本发明采用如下技术方案:

本申请提供一种商品自动化采集与迁移方法,包括如下步骤:

S1,设置商品页面URL规则以及URL中的变量;

S2,遍历符合S1中设置好的URL规则的所有变量的URL的商品源数据,并将商品源数据存储到数据库一中;

S3,对数据库一中的商品源数据进行分析学习,将分析结果以数据包的形式存入数据库二中;

S4,将数据库二中的数据包按照预设平台页面规则进行匹配,形成预设数据包;

S5,将S4中的预设数据包迁移到预设平台页面。

进一步的,S2中所述商品源数据包括文字及商品图片信息;所述数据库一是NOSQL-MongoDB数据库;所述数据库二是MySql和MongoDB。

上述的商品自动化采集与迁移方法中,S2遍历过程中,遇到空的商品URL,自动抛弃并记录。

上述的商品自动化采集与迁移方法中,S3中,分析学习的过程包括,对商品源数据进行学习,找到页面元素规律,分析得出的元素至少包括店铺、品牌、分类、标题、价格、主图和商品详情信息,将分析得出的所有元素形成数据包存储到数据库二中。

上述的商品自动化采集与迁移方法中,S4中所述将数据库二中的数据包按照预设平台页面规则进行匹配,形成预设数据包的方法是,将数据库二中的所述店铺、品牌、分类、标题、价格、主图和商品详情信息元素分别与预设平台页面相应区块进行匹配,形成预设数据包。

上述的商品自动化采集与迁移方法中,S5中所述将S4中的预设数据包迁移到预设平台页面之后,还包括在平台上发布的步骤S6:

迁移后为待发布状态,是否发布等待校核数据之后;如果数据校核成功,则在预设平台页面上发布;如果数据校核未成功,则暂缓发布。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中合金网(北京)电子商务有限公司,未经中合金网(北京)电子商务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910051199.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top