[发明专利]识别地址的方法和装置在审
申请号: | 202110325543.0 | 申请日: | 2021-03-26 |
公开(公告)号: | CN113076752A | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 周雪;张少华;李娜;赵锡成;孟琳琳 | 申请(专利权)人: | 中国联合网络通信集团有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06K9/62;G06F16/29 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 朱颖;黄健 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 地址 方法 装置 | ||
本申请提供了一种识别地址的方法和装置,可以通过基于分类模型和分词模型的置信阈值标注体系对恶意地址进行识别,有利于提高恶意地址识别的准确率。该方法包括:将待识别地址信息输入至分类模型,获取第一数值,该第一数值用于表示该待识别地址信息为恶意地址的概率;若该第一数值小于或等于第一置信阈值,且该第一数值大于或等于第二置信阈值,将该待识别地址信息输入至分词模型,得到结构化地址信息,该分词模型用于将该待识别地址信息进行结构化划分,并对划分后的该待识别地址信息进行标注;基于该结构化地址信息,对该待识别地址信息进行识别。
技术领域
本申请涉及人工智能领域,更具体地,涉及一种识别地址的方法和装置。
背景技术
恶意地址源于黑色产业链冒充正常客户对运营商产品进行恶意订购的行为。恶意地址可以为不存在的虚假地址、行政区划分错乱的干扰地址以及无地址意义的垃圾地址等。恶意地址占用终端用户的网络资源,扰乱正常的信息技术(internet technology,IT)流程,使得IT系统的功能产生错误和偏差,无法对恶意地址进行解析和分词处理,因此需要在恶意地址进入正常IT流程之前将其识别并进行屏蔽。
目前,可以采用模板匹配的方法对恶意地址进行识别,该方法可以基于待识别地址信生成目标地址,并判断至少一个恶意地址模板中是否存在与该目标地址对应的恶意地址模板。
然而,由于恶意地址的随意性较强,采用上述方法进行恶意地址识别的准确率不高。
发明内容
本申请提供一种识别地址的方法和装置,可以通过基于分类模型和分词模型的置信阈值标注体系对恶意地址进行识别,有利于提高恶意地址识别的准确率。
第一方面,提供了一种识别地址的方法,包括:将待识别地址信息输入至分类模型,获取第一数值,该第一数值用于表示该待识别地址信息为恶意地址的概率,该分类模型包括位置嵌入层、分段嵌入层和词嵌入层,该位置嵌入层用于表示该待识别地址信息中词语的位置关系,该分段嵌入层用于区分该待识别地址信息中不同的语句,该词嵌入层用于将该待识别地址信息向量化;若该第一数值小于或等于第一置信阈值,且该第一数值大于或等于第二置信阈值,将该待识别地址信息输入至分词模型,得到结构化地址信息,该分词模型用于将该待识别地址信息进行结构化划分,并对划分后的该待识别地址信息进行标注;基于该结构化地址信息,对该待识别地址信息进行识别。
应理解,上述第一置信阈值大于或等于第二置信阈值。
本申请实施例采用分类模型结合第一置信阈值和第二置信阈值对待识别地址信息进行初步分类,并基于模型得分,即第一数值进一步采用分词模型对该待识别地址信息进行识别。由于分类模型可以保留相对完整意义上的待识别地址的语义信息,且分词模型可以完整实现对待识别地址信息的划分和标注,最大限度地保留了地理位置相关的完整实体信息,因此,有利于提高识别地址的准确率。
结合第一方面,在第一方面的某些实现方式中,基于该结构化地址信息,对该待识别地址信息进行识别,包括:基于该结构化地址信息,确定第一地址信息;将该第一地址信息与地址库中的地址信息进行匹配,以对该待识别地址信息进行识别。
结合第一方面,在第一方面的某些实现方式中,该地址库包括第一地址库,将该第一地址信息与地址库中的地址信息进行匹配,以对该待识别地址信息进行识别,包括:若该第一地址信息与该第一地址库中的地址信息匹配成功,确定该待识别地址信息为正常地址。
结合第一方面,在第一方面的某些实现方式中,该地址库还包括第二地址库,将该第一地址信息与地址库中的地址信息进行匹配,以对该待识别地址信息进行识别,包括:若该第一地址信息与该第一地址库中的地址信息匹配失败,获取该第一地址信息中的多个关键词;将该多个关键词与该第二地址库中的地址信息进行匹配,得到第二数值;基于该第二数值,对该待识别地址信息进行识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国联合网络通信集团有限公司,未经中国联合网络通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110325543.0/2.html,转载请声明来源钻瓜专利网。