[发明专利]一种地址匹配方法在审
申请号: | 201510230110.1 | 申请日: | 2015-05-08 |
公开(公告)号: | CN105005577A | 公开(公告)日: | 2015-10-28 |
发明(设计)人: | 沈启明;密铁宾 | 申请(专利权)人: | 裴克铭管理咨询(上海)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200125 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 地址 匹配 方法 | ||
技术领域
本发明属于地理信息技术领域,具体的说是涉及一种地址匹配方法。
背景技术
地址匹配是将文字性的描述地址与其空间的地理位置坐标建立起对应关系的过程。地址匹配服务按照特定的步骤为地址查找匹配对象,首先要将地址标准化;然后服务器搜索地址匹配参考数据,查找潜在的位置;根据与地址的接近程度为每个候选位置指定分值,最后用分值最高的来匹配这个地址。目前现有技术中存在很多地址匹配技术,一些地址匹配技术并没有运用分词法去处理地址,导致能处理的地址类型非常有限,前处理要求高。还有一些地址匹配技术运用的技术层次偏少,给出的信息较为晦涩难懂,不够直观,缺少技术处理层次,或技术处理层次之间结合得不够好影响效率,导致地址匹配成功率偏低,容错性较差等问题。如果能够提供一种运用一系列优化机制保证程序运行效率,能够显著提高地址匹配成功率以及容错性的新型地址匹配方法成为人们迫切的需求。
发明内容
本发明为了克服现有技术存在的不足,提供一种地址匹配方法,该地址匹配方法解决了多重地址匹配技术复合运用问题,很大程度的提高了地址匹配的成功率以及容错性,同时运用一系列优化机制保证了程序运行的效率。
本发明是通过以下技术方案实现的:一种地址匹配方法,其采取分层渐进式的匹配方法,具体包括快速匹配、经纬度匹配、模糊匹配和人工判定四个步骤:
a、快速匹配:
将预验信心指数符合标准的待匹配地址信息,导入快速匹配通道,对各个地址要素进行精确匹配,运用链式补充机制适当补充匹配;如果除缺失项外其余要素均成功匹配,则整条地址判为成功匹配,记录并计算后验信心指数,有任意项不符,则判为匹配失败;匹配失败的地址信息以及刚开始不符合预验信心指数标准的地址信息送入经纬度匹配进行处理;
b、经纬度匹配:
将待匹配地址信息发送到地图服务提供商的开放API获取地址数据所对应的经纬度,依据经纬度索引调取该经纬度所属区块及其邻近区块;导入这些区块中所有POI经纬度数据来测量与目标地址的距离,用合理距离内的POI地址与目标地址进行精确匹配,如果匹配成功则记录并计算后验信心指数;如果匹配失败,用模糊匹配再次尝试,成功则记录,依然失败则送入最终模糊匹配阶段进行处理;经纬度匹配能够有效处理地址要素分词时地址要素被误认的情形,提高匹配成功率。
c、模糊匹配:
所述模糊匹配根据中文同音字多,形似字发音也多类似的特点根据中文拼音建立模糊规则,将中文字符串转换成拼音字符串的方式进行模糊处理,并运用该匹配方法建立模糊索引,具体方式为:
先为不同地址要素制定对应的索引编码规则,提取每个地址要素的中文字的拼音首字母,按该要素所对应的索引编码规则与数字进行结合构成模糊索引;在地址匹配过程中,将待匹配地址中经过分词算法切分出的地址要素依照模糊规则转换成拼音首字母组合,再提取数据库中该地址要素所对应的符合该首字母组合的分类,对该分类中所有条目进行比对。如此相比对该地址要素的所有条目进行全部比对的暴力算法,能够成倍提高匹配效率,运用此模糊规则,能够增强对地址中出现的一些错别字的容错性,达成模糊匹配,由此能够显著提高匹配成功率。
d、人工判定:
根据信心指数选取低于某个标准的地址信息,人工做出匹配判定,或者对信心指数较高的地址进行抽样检查,为匹配流程提供灵活性和验证机制。
在快速匹配之前,需对标准地址数据库进行四个方面的预处理,预处理分别为:a、根据地址要素信息建立对应字典,为地址分词算法提供支持;b、为语义分词模型创建训练数据集;c、根据模糊规则建立模糊索引;d、根据经纬度匹配要求建立经纬度数据库并建立经纬度区块索引。
所述地址匹配方法还包括地址分词技术,所述地址分词技术综合运用条件随机场模型和经过规则优化的最大匹配算法对地址进行分词处理;所述运用条件随机场模型需要抽取地址信息内部的关联特征,用预处理阶段创建的训练数据集对模型进行训练,使其具备自动切分地址信息和识别地址要素的能力;所述经过规则优化的最大匹配算法指的是MMSEG算法,MMSEG算法以最大的正向匹配算法为主,辅以消除歧义的规则,配合字典进行地址信息的切分以及地址要素的识别。条件随机场模型具有强大的模式识别能力,能够成功识别数据库遗漏的小区,同时具有良好的歧义地址辨别能力,有助于成功区分地址要素。MMSEG算法在有良好的字典数据支持的情况下具有速度快、精度高等特点。本发明将两种算法结合使用能够使其互相补充,互相验证,有效提高地址匹配准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于裴克铭管理咨询(上海)有限公司,未经裴克铭管理咨询(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510230110.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种训练数据的处理方法及装置
- 下一篇:一种视频网站相似用户搜索系统和方法