[发明专利]一种地址匹配方法在审
申请号: | 201510230110.1 | 申请日: | 2015-05-08 |
公开(公告)号: | CN105005577A | 公开(公告)日: | 2015-10-28 |
发明(设计)人: | 沈启明;密铁宾 | 申请(专利权)人: | 裴克铭管理咨询(上海)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200125 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 地址 匹配 方法 | ||
1.一种地址匹配方法,其特征在于:所述地址匹配方法采取分层渐进式的匹配方法,具体包括快速匹配、经纬度匹配、模糊匹配和人工判定四个步骤:
a、快速匹配:
将预验信心指数符合标准的待匹配地址信息,导入快速匹配通道,对各个地址要素进行精确匹配,运用链式补充机制适当补充匹配;
如果除缺失项外其余要素均成功匹配,则整条地址判为成功匹配,记录并计算后验信心指数,有任意项不符,则判为匹配失败;
匹配失败的地址信息以及刚开始不符合预验信心指数标准的地址信息送入经纬度匹配进行处理;
b、经纬度匹配:
将待匹配地址信息发送到地图服务提供商的开放API获取地址数据所对应的经纬度,依据经纬度索引调取该经纬度所属区块及其邻近区块;
导入这些区块中所有POI经纬度数据来测量与目标地址的距离,用合理距离内的POI地址与目标地址进行精确匹配,如果匹配成功则记录并计算后验信心指数;
如果匹配失败,用模糊匹配再次尝试,成功则记录,依然失败则送入最终模糊匹配阶段进行处理;
c、模糊匹配:
所述模糊匹配根据中文同音字多,形似字发音也多类似的特点根据中文拼音建立模糊规则,将中文字符串转换成拼音字符串的方式进行模糊处理,并运用该匹配方法建立模糊索引,具体方式为:
先为不同地址要素制定对应的索引编码规则,提取每个地址要素的中文字的拼音首字母,按该要素所对应的索引编码规则与数字进行结合构成模糊索引;在地址匹配过程中,将待匹配地址中经过分词算法切分出的地址要素依照模糊规则转换成拼音首字母组合,再提取数据库中该地址要素所对应的符合该首字母组合的分类,对该分类中所有条目进行比对。
d、人工判定:
根据信心指数选取低于某个标准的地址信息,人工做出匹配判定,或者对信心指数较高的地址进行抽样检查,为匹配流程提供灵活性和验证机制。
2.根据权利要求1所述的一种地址匹配方法,其特征在于:在快速匹配之前,需对标准地址数据库进行四个方面的预处理,预处理分别为:
a、根据地址要素信息建立对应字典,为地址分词算法提供支持;
b、为语义分词模型创建训练数据集;
c、根据模糊规则建立模糊索引;
d、根据经纬度匹配要求建立经纬度数据库并建立经纬度区块索引。
3.根据权利要求1所述的一种地址匹配方法,其特征在于:所述地址匹配方法还包括地址分词技术,所述地址分词技术综合运用条件随机场模型和经过规则优化的最大匹配算法对地址进行分词处理;所述运用条件随机场模型需要抽取地址信息内部的关联特征,用预处理阶段创建的训练数据集对模型进行训练,使其具备自动切分地址信息和识别地址要素的能力;所述经过规则优化的最大匹配算法指的是MMSEG算法,MMSEG算法以最大的正向匹配算法为主,辅以消除歧义的规则,配合字典进行地址信息的切分以及地址要素的识别。
4.根据权利要求1所述的一种地址匹配方法,其特征在于:所述地址匹配方法还包括地址匹配准确性的信心指数机制,所述地址匹配准确性的信心指数机制是一种积分制的地址质量标示机制,每项地址要素根据其在整条地址信息中对地址能够成功匹配的贡献度分配固定的起始分值或设定固定的权重,然后根据各项地址要素的信息完整性及准确性对该项要素的起始分值进行适当加权得出加权后分值;如果某项要素的成功匹配是必须通过模糊匹配才得以实现,则该项要素的积分要乘以一个信心系数,所述信心系数在0与1之间取值,信心系数取值的具体大小视模糊的程度而定,一条地址信息的各项地址要素加权后分值的总和即为该地址信息的信心指数。
5.根据权利要求1所述的一种地址匹配方法,其特征在于:步骤c模糊匹配的匹配方法具体为:运用模糊规则对待匹配地址的地址要素进行模糊转换,获取相关索引,从末位地址要素开始,获取该要素模糊索引所对应的分类;调取该分类内所有条目,与待匹配要素共同从汉字模式转化成拼音模式;然后运用字符串模糊搜索算法对两组拼音数据进行对比,大体符合的则判定为成功匹配;
相差超过预定标准并在目前分类中无法找到匹配数据时,放宽索引标准,扩大范围进一步搜索;依旧无法找到匹配的,判为匹配失败,该项要素信心指数得分为0;找到匹配的,根据要素匹配搜索时的模糊程度给予一个信心系数,乘以要素对应的积分,加入该地址信息的信心指数总分;有多个匹配结果时,列出所有可能匹配项,并计算信心指数总分,取总分最高者。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于裴克铭管理咨询(上海)有限公司,未经裴克铭管理咨询(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510230110.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种训练数据的处理方法及装置
- 下一篇:一种视频网站相似用户搜索系统和方法