[发明专利]一种基于语义识别和高级语言搜索的地址标准化方法在审
申请号: | 202010038989.0 | 申请日: | 2020-01-14 |
公开(公告)号: | CN111291277A | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 王新根;鲁萍;王新宇;许俊杰;张欢欢 | 申请(专利权)人: | 浙江邦盛科技有限公司 |
主分类号: | G06F16/9537 | 分类号: | G06F16/9537;G06F16/29;G06F40/232;G06F40/242;G06F40/289;G06F40/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310012 浙江省杭州市西湖*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 识别 高级 语言 搜索 地址 标准化 方法 | ||
本发明公开了一种基于语义识别和高级语言搜索的地址标准化方法,包括:原始输入地址预处理,地址分词引擎对预处理后的地址分词,基于语义识别的地址要素标记,地址规范化,地址标准化引擎依据高级语言搜索算法在标准地址库中检索到最为准确的标准地址。该方法实现了对人们输入的异常地址的去重、降噪、删除冗余信息、错别字识别、机构名识别、段落补偿、段落纠错等功能,实现了对异常地址的精确标准化。
技术领域
本发明涉及语义识别领域,尤其涉及一种基于语义识别和高级语言搜索的地址标准化方法。
背景技术
在目前的互联网中地址信息作为一个必要因素越来越被重视,但是地址录入的不确定性,导致应用方获取的地址信息异常,而地址标准化引擎可以解决地址规范化和准确定的问题。包括:去重、降噪、删除冗余信息、删除特殊符号、识别繁体字、识别错别字、识别形近字、识别机构名、段落补偿、段落纠错。
为解决这些问题需要建立健全的简全称字典、别名库、形近字字典以及数据量、数据质量足够大的标准地址库,并制定相应的算法策略。
发明内容
本发明目的在于针对现有技术的不足,提出一种基于语义识别和高级语言搜索的地址标准化方法。
本发明的目的是通过以下技术方案来实现的:一种基于语义识别和高级语言搜索的地址标准化方法,所述地址标准化方法包括:
对原始地址进行分词标注,根据分词标注结果先进行规范化处理,然后再依据分词标注结果作为地址分段信息,并根据如下的分段匹配规则检索标准地址库;
1)将地址分段分为名称和后缀词两部分;
2)对名称根据同音字典、形近字典进行比较;
3)对同一类型的字典库中的后缀词依据同义后缀词典进行匹配;
4)基于编辑距离算法(EditDistance)的进行比较;
最后根据匹配和比较的结果得到标准地址库中标准匹配的最佳地址结果。通过原始地址与标准化结果地址的对比,可以对地址的真实性、区域性、同类地址的一致性进行验证,为金融风控行业判断地址真伪以及规避团伙作案风险保驾护航,同时可以在数据治理、医疗信息化、公安信息化、广电运营商用户信息规范、大数据解决方案等非风控领域,通过地址标准化深度挖缺数据信息、极大提高运营效率。
进一步地,所述分词标注通过适用于中文地址分词标记的深度学习模型实现,该模型基于BiLSTM-CRF神经网络算法,用百万条以上的地址数据训练得到。
进一步地,所述分词标注的深度学习模型还包括五级行政区划、自然村、全国道路、住宅区、商务楼宇、银行、医院、学校等字典库,以及结合中文地址以及单位名称的特殊命名规范的分词标注规则。
进一步地,所述规范化处理包括降噪、去重和补缺等,具体为根据行政区划的所属关系,进行分段补全以及分段去重,同时将地址中的噪声词删除,通过去除冗余信息、调整顺序使行政区域、基本区域限定物、局部点位置三大类要素符合中华人民共和国测绘行业标准化指导性技术文件《地理信息公共服务平台地理实体与地名地址数据规范》,同时将地址中行政区划代码转换为地址对应信息。
进一步地,所述标准地址库是以统计局中行政区划数据为基础,民政局数据作为补充,建立标准的行政区划库,并标明其各级所属关系,根据地址中包含的行政区划分段进行地址补全和所属关系判断,以纠正错误的地址行政区划信息;同时在地址库建立行政区划与地址的对应关系表,根据行政区划代码查找对应的地址;并在标准地址库建立噪声词库,删除地址分段中出现在噪声词库中的信息。
进一步地,依据原始输入地址数据的行政区划,以及基本区域限定物名称并依据分段匹配规则在标准地址库中检索,获取对应原始输入地址的标准地址集合,依据集合中每条数据与原始数匹配情况得到唯一的标准地址。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江邦盛科技有限公司,未经浙江邦盛科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010038989.0/2.html,转载请声明来源钻瓜专利网。