[发明专利]一种风险地址识别方法、装置、设备和存储介质在审
| 申请号: | 202010489800.X | 申请日: | 2020-06-02 | 
| 公开(公告)号: | CN111711618A | 公开(公告)日: | 2020-09-25 | 
| 发明(设计)人: | 沈淑;顾雷;吴潇丽;张天翼;王爱凌;王鑫云;王嘉浩;邹泊滔;孙清清;钱堃;王淑钰 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 | 
| 主分类号: | H04L29/06 | 分类号: | H04L29/06 | 
| 代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 刘立升 | 
| 地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 风险 地址 识别 方法 装置 设备 存储 介质 | ||
1.一种风险地址识别方法,该方法包括:
获取待识别地址数据;
将所述待识别地址数据通过第一预设模型划分为多个字符组;
确定划分后的每个字符组对应的词嵌入向量;
将每个字符组对应的词嵌入向量输入风险地址识别网络模型,得到所述待识别地址数据是否为风险地址。
2.根据权利要求1所述的方法,每个字符组对应的词嵌入向量为通过第二预设模型预先训练得到的,
其中,通过第二预设模型预先训练得到词嵌入向量,具体包括:
获取地址库,所述地址库中存储有收集到的地址数据;
将所述地址库中的地址数据通过所述第一预设模型划分为多个字符组;
将划分后的每个字符组输入所述第二预设模型进行训练,以得到每个字符组的词嵌入向量。
3.根据权利要求2所述的方法,所述风险地址识别网络模型为对抗训练模型。
4.根据权利要求3所述的方法,所述对抗训练模型的训练步骤包括:
获取训练样本,所述训练样本包括已标记为风险地址的数据,以及使得机器学习算法产生误判的地址数据;
将所述训练样本中的地址数据通过第一预设模型划分为多个字符组;
确定划分后的每个字符组对应的词嵌入向量,所述词嵌入向量是通过第二预设模型训练得到的;
将每个字符组对应的词嵌入向量输入所述对抗训练模型进行训练。
5.根据权利要求4所述的方法,在所述将每个字符组对应的词嵌入向量输入所述对抗训练模型进行训练的步骤之前,所述训练步骤还包括:
对每个字符组的词嵌入向量进行归一化操作。
6.根据权利要求5所述的方法,在对每个字符组的词嵌入向量进行归一化操作的步骤中,
归一化公式为:
其中,fj为所有训练样本中第i个词出现的频率;vk为第k个词的词嵌入向量;为第k个词正则化后的词嵌入向量。
7.根据权利要求5所述的方法,在所述将每个字符组对应的词嵌入向量输入所述对抗训练模型进行训练步骤中,所述训练方法还包括:
在归一化后的向量中添加扰动项,并在所述对抗训练模型的损失函数中增加所述扰动项带来的损失。
8.根据权利要求7所述的方法,在归一化后的向量中添加的扰动项公式为:
radv=-∈g/‖g‖2;
所述损失函数如下:
其中,radv为扰动项;s为输入向量;y为输出向量;为模型的参数预估值;θ为模型的参数真实值;Ladv为扰动项的损失函数。
9.根据权利要求4所述的方法,在所述获取待识别地址数据的步骤之前,所述方法还包括:获取原始地址数据,对所述原始地址数据进行清洗以得到待识别地址数据;
和/或,在所述获取地址库步骤之前,所述方法还包括:对地址库中的数据进行数据清洗;
和/或,在所述获取训练样本的步骤之前,所述方法还包括:对训练样本中的数据进行数据清洗。
10.根据权利要求1至9中任一项所述的方法,
所述第一预设模型为三元Trigram模型;
和/或,所述第二预设模型为Word2Vec模型。
11.一种风险地址识别设备,包括:至少一个处理器和存储器,所述存储器存储有程序,并且被配置成由所述至少一个处理器执行以下步骤:
获取待识别地址数据;
将所述待识别地址数据通过第一预设模型划分为多个字符组;
确定划分后的每个字符组的对应词嵌入向量;
将每个字符组对应的词嵌入向量输入风险地址识别网络模型,得到所述待识别地址数据是否为风险地址。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010489800.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种花灰纱的制备方法
- 下一篇:一种立式加工中心光机





