[发明专利]网络平台基础数据质量算法的保障方法有效
申请号: | 201711276927.8 | 申请日: | 2017-12-06 |
公开(公告)号: | CN108170589B | 公开(公告)日: | 2021-08-13 |
发明(设计)人: | 吴洋;朱兴;彭更红;王小冬;陈凌宇;杨宇 | 申请(专利权)人: | 口碑(上海)信息技术有限公司 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06F11/34 |
代理公司: | 北京清源汇知识产权代理事务所(特殊普通合伙) 11644 | 代理人: | 冯德魁;窦晓慧 |
地址: | 200135 上海市浦东新区自由*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 平台 基础 数据 质量 算法 保障 方法 | ||
本申请公开网络平台基础数据质量算法的保障方法,利用样本数据,从基础数据中提取多个已标注数据作为样本数据;利用样本数据对被测试算法进行线下算法回归评估;再通过基础数据中积累的样本数据,对被测试算法进行线上算法回归评估;通过被测试算法进行线上和线下测试的同时,对算法产生反馈,推进算法迭代,并在修正结束继续对算法进行同步的验证;不仅对算法的效果进行了可靠度量,还对算法的迭代起到作用,从而保证了基础数据的质量。
技术领域
本申请涉及互联网应用算法领域,具体涉及网络平台基础数据质量算法的保障方法。
背景技术
近年来,随着网络技术的快速发展,互联网算法的应用已经全方位的融入到生活当中。例如,用户打开app后,算法自动推荐其喜欢的视频,美食,新闻等;越来越多的人在线支付,支付信息的安全加密等;这些都是由算法来实现的。因此,在互联网领域的应用算法场景中,算法效果的正确性、合理性将直接影响到相关数据的质量和用户体验。
其中,许多算法的效果可以通过指标量化实现评价。比如搜索推荐算法,可以通过日志打点,得到用户点击转化率等量化指标,这类场景往往可以通过A/B实验等方法保证算法效果。如图1所示,为A/B测试概念示意图。
图1展示了A/B测试的实现原理。从左到右,四条较粗的竖线代表了A/B测试中的四个关键角色:客户端(Client)、服务器(Server)、数据层(Data)、数据仓库(DataWarehouse)。从上到下代表了三种访问形式:无A/B测试的普通访问流程(Non AB test)、基于后端的A/B测试访问流程(Back-end AB test)、基于前端的A/B测试访问流程(Front-endAB test)。
一般情况下,用户在一次浏览中,会从客户端(Client)发起一个请求,这个请求被传到了服务器(Server),服务器的后台程序根据计算,得出要给用户返回什么内容(Data),同时向数据仓库(Data Warehouse)添加一条打点信息,记录本次访问的相关信息。这个过程也就是图上横向的流程。数据仓库收集到足够的数据之后,就可以开始进行分析(Analytics)了,即是图1中右上角的部分,宏观行为分析(Macro-behavior)和微观行为分析(Micro-behavior)。A/B测试需要将多个不同的版本展现给不同的用户,即需要一个“分流”的环节。从图1中可以看到,分流可以在客户端做,也可以在服务器端做。传统的A/B测试一般是在服务端分流的,即基于后端的A/B测试(Back-end AB test),当用户的请求到达服务器时,服务器根据一定的规则,给不同的用户返回不同的版本,同时记录数据的工作也在服务端完成。
但是,目前还存在另一类基础数据质量场景下的算法,其效果的衡量不容易获取量化指标值。比如,电子商户领域线上的店铺的商户名、地址、电话、经纬度、类目等基本信息,这些数据在许多情况下是通过其他信息使用特定算法推算而获得的,这些基础数据的质量对用户体验、对营运活动等都有很大影响,但是,对于获得这些基础数据的算法却没有可靠、直接的数据指标衡量其算法质量。
在基础数据质量相关算法应用过程中,算法分为在线算法和离线算法,在线算法是指,算法提供在线服务,可供其他系统调用;离线算法是指在离线分布式计算平台等运行,生产数据,供下游离线任务使用,或者通过一定的手段将数据导入线上系统。
因此,对于基础数据质量场景下的算法,如何在算法开发,迭代和生产的整个链路中,保障算法的效果,进而保证基础数据的质量,还需要进一步地去完善。
发明内容
本申请提供网络平台基础数据质量算法的保障方法,以解决对于基础数据质量场景下的算法,在算法开发,迭代和生产的整个链路中,保障算法的效果,进而保证基础数据的质量的问题。
本申请提供了网络平台基础数据质量算法的保障方法,包括:从所述基础数据中提取多个已标注数据作为样本数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于口碑(上海)信息技术有限公司,未经口碑(上海)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711276927.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种测试环境搭建方法及装置
- 下一篇:一种区块链系统的测试系统和方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置