[发明专利]订单识别模型生成方法、识别方法、系统、设备和介质有效
申请号: | 202010186074.4 | 申请日: | 2020-03-17 |
公开(公告)号: | CN111461815B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 江文斌;李健 | 申请(专利权)人: | 上海携程国际旅行社有限公司 |
主分类号: | G06Q30/0601 | 分类号: | G06Q30/0601;G06N20/00 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;张冉 |
地址: | 200335 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 订单 识别 模型 生成 方法 系统 设备 介质 | ||
本发明公开了一种订单识别模型生成方法、识别方法、系统、设备和介质,通过获取多个历史订单数据;基于所述多个历史订单数据获取历史订单特征;将所述多个历史订单数据用图结构进行关联,得到一个以订单为图节点以用户ID和或产品ID为边的图;对所述历史订单特征进行特征处理与筛选,以剔除不相关特征,并将筛选后的订单特征加入对应的图节点中,从而得到GCN图结构网络;将所述历史订单数据输入至GCN模型中进行训练,以得到订单识别模型,进一步利用该模型预测订单异常的概率,进而判断该订单是否异常。本发明使用图结构实现基于聚类和社区发现的半监督学习方法能够对海量未标注的订单进行准确识别。
技术领域
本发明涉及电商平台的信息处理技术领域领域,特别涉及一种订单识别 模型生成方法、识别方法、系统、设备和介质。
背景技术
在电商平台,产品的搜索列表和信息流推荐通常使用售卖量、点击量、 用户点评分等指标作为重要的排序和推荐因子。由于普通用户往往具有从众 的心里,最终会购买比较热门的产品,从而极有可能形成爆款产品。然而, 除了正常的用户下单购买行为,一些商家为了提高自己产品的售卖量、点击 量、曝光量会采用一些非正常的下单行为,即雇佣其他人或者网络水军对自 己的产品进行点击、下单、支付、点评等。这种订单的刷单行为会严重干扰 平台的正常运营,对其他商家非常不公平、对用户来说也是某种欺骗。因而, 订单的刷单识别是电商平台不可或缺的运营手段之一,能有效地维护平台的 公平公正。
现有的刷单识别一般采用规则系统和模型识别两种方法实现。规则系统 使用一些业务规则来判断该订单是刷单行为的可能性,比如:“分身乏术”规 则指的是同一用户短时间内对同一个供应商产品重复下单的刷单行为,“突 然降价”规则指的是某供应商对某产品突然降价且有大量用户购买、下单之 后又在短时间内恢复价格的刷单行为,等等。也就是说,规则系统中的每一 条规则都是根据人工的先验知识和一些被举报刷单的行为综合得出的,因而 规则系统在验证集上漏抓的可能性较小,错抓的可能性较大,即其查全率较 高而查准率较低。采用模型识别的方法,一般使用逻辑回归(Logistic Regression,LR)二分类模型或者XGBoost模型进行二分类。模型识别的方 法能在原始特征上学习到一些规则无法预设的先验知识,特别是XGBoost能 在某种程度上能对特征进行交叉,因而模型识别方法在验证集上的都能获得 较高的查全率和查准率。但在实际运营中都会存在这样的矛盾问题:规则系 统虽然对于验证集上漏抓刷单较少,但对于海量未进行人工标注的订单,其 判别为刷单的订单较少,而如果一旦被判别为刷单,则极有可能就是刷单; 模型识别虽然在验证集上查全率和查准率都较高,但对于海量未标注的订单, 被判别为刷单的订单较多,而其很有可能是错判。实际运营中这些被判定为 刷单的订单,由于人工核实的工作量巨大,所以更多倾向于使用规则系统进 行刷单识别。
从机器学习的角度看,该问题是半监督学习问题,即海量的订单(比如 百万级别)中只有少量的已标注订单(比如万级别)。针对半监督学习的问 题,仅仅使用逻辑回归或者XGBoost模型的方法,均无法从根本上解决问 题。其次,从数据的角度看,该问题是正负样本极端不平衡的问题,即正样 本(标记为刷单)的数量远远少于负样本(标记为正常订单)。针对数据极端 不平衡的问题,仅仅通过规则系统进行扩充无法从根本上解决问题。
发明内容
本发明要解决的技术问题是为了克服现有技术中采用对于海量未标注 的订单,规则系统会漏抓、模型识别系统会错抓缺陷,提供一种订单识别模 型生成方法、识别方法、系统、设备和介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供了一种订单识别模型生成方法,所述订单识别模型生成方法 包括:
获取多个历史订单数据;
基于所述多个历史订单数据获取历史订单特征,所述订单特征包括用户 维度特征、订单维度特征、产品维度特征、上下文维度特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海携程国际旅行社有限公司,未经上海携程国际旅行社有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010186074.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:对房产证图像进行结构化信息提取的方法
- 下一篇:一种人体动作识别系统及方法