[发明专利]一种风险地址识别方法、装置以及电子设备有效
| 申请号: | 201710543805.4 | 申请日: | 2017-07-05 |
| 公开(公告)号: | CN107526967B | 公开(公告)日: | 2020-06-02 |
| 发明(设计)人: | 孙清清 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F21/56 | 分类号: | G06F21/56;G06F16/33;G06K9/62 |
| 代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 周莉娜 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 风险 地址 识别 方法 装置 以及 电子设备 | ||
1.一种风险地址识别方法,所述的方法包括:
获取输入地址对应的地址词序列,所述地址词序列是通过对输入地址进行处理后得到的;
在所述地址词序列包含的各地址词中,确定命中各风险地址对应的风险词的地址词;
根据所述确定的地址词以及所述地址词在所述地址词序列中的关联词,生成所述地址词序列对应的观察序列;所述关联词反映所述地址词在所述地址词序列中的前后语义;
利用基于地址词前后语义学习得到的隐马尔科夫模型,对所述观察序列进行处理,得到决策向量,所述决策向量表示所述地址词序列包含的各地址词命中所述风险地址的概率;
通过对所述决策向量进行分类判决,识别所述输入地址是否为风险地址。
2.如权利要求1所述的方法,所述获取输入地址对应的地址词序列,具体包括:
接收输入地址;
通过对所述输入地址进行数据清洗处理和分词处理,得到所述输入地址对应的地址词序列。
3.如权利要求1所述的方法,所述在所述地址词序列包含的各地址词中,确定命中各风险地址对应的风险词的地址词,具体包括:
利用各风险地址对应的风险词,对所述地址词序列中的各地址词分别进行匹配;
若存在匹配成功的所述地址词,对其进行标注,并确定为命中各风险地址对应的风险词的地址词。
4.如权利要求3所述的方法,所述在所述地址词序列包含的各地址词中,确定命中各风险地址对应的风险词的地址词,还包括:
若不存在匹配成功的地址词,确定所述输入地址不为风险地址。
5.如权利要求3所述的方法,所述根据所述确定的地址词,生成所述地址词序列对应的观察序列,具体包括:
分别针对所述确定的地址词,执行:根据该地址词以及该地址词在所述地址词序列中的关联词,生成所述地址词序列对应的观察序列,其中,所述关联词反映该地址词在所述地址词序列中的前后语义。
6.如权利要求1所述的方法,基于地址词前后语义学习得到隐马尔科夫模型包括:
根据预定义的训练样本,提取初始参数,并根据所述初始参数建立包含隐马尔科夫模型参数的初始模型,其中,所述训练样本为风险地址或者非风险地址;
根据所述训练样本中包含的地址词以及所述地址词的前后语义,生成所述训练样本对应的观察序列;
根据所述初始模型,以及所述训练样本对应的观察序列,对所述隐马尔科夫模型参数进行训练,得到隐马尔科夫模型。
7.如权利要求6所述的方法,所述初始参数包括:初始概率向量、状态转移矩阵;
所述根据预定义的训练样本,提取初始参数,具体包括:
基于预定义的多个训练样本,通过对所述训练样本包含的地址词分别进行概率标注,得到初始概率向量;
根据所述训练样本包含的所述地址词在风险词与非风险词之间状态转移概率,获得所述样本地址的状态转移矩阵。
8.如权利要求6所述的方法,所述根据所述初始模型,以及所述训练样本对应的观察序列,对所述隐马尔科夫模型参数进行训练,得到隐马尔科夫模型,具体包括:
根据所述初始模型,以及所述训练样本对应的观察序列,利用Baum-Welch算法对所述隐马尔科夫模型参数进行训练,得到隐马尔科夫模型。
9.如权利要求1所述的方法,所述利用基于地址词前后语义学习得到的隐马尔科夫模型,对所述观察序列进行处理,得到决策向量,具体包括:
利用基于地址词前后语义学习得到的隐马尔科夫模型和Viterbi算法,对所述观察序列进行处理,得到决策向量。
10.如权利要求1所述的方法,所述对所述决策向量进行分类判决,具体包括:
利用训练得到的支持向量机SVM模型,对所述决策向量进行分类判决。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710543805.4/1.html,转载请声明来源钻瓜专利网。





