[发明专利]一种地址匹配方法有效
申请号: | 201810860041.6 | 申请日: | 2018-08-01 |
公开(公告)号: | CN109344263B | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 龙华;吴睿;熊新;邵玉斌;杜庆治 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/387 | 分类号: | G06F16/387 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 地址 匹配 方法 | ||
1.一种地址匹配方法,其特征在于:
①建立分词词典、地址分级词典与常见地址缩略词替代词典;
②输入待匹配的地址字符串;
③对输入的待匹配的地址字符串进行预处理;
所述预处理包含地址分词、去除标点、过滤掉无用信息和地址缩略词替代;
④将预处理中基于正向最大匹配和基于逆向最大匹配中不同的分词结果用基于规则的地址匹配方法和自然语言处理技术进行二次处理;
所述的基于规则的地址匹配方法具体实现为:当预处理中基于正向最大匹配和基于逆向最大匹配中出现不同的分词结果时,若分词结果中含有主特征字,则用所述的基于规则的地址匹配方法通过匹配数据库进行歧义消除;否则用所述的自然语言处理技术分别对正向最大匹配算法和逆向最大匹配算法得到的不同的分词结果进行词性标注,然后使用viterbi算法求出概率最大的分词结果;
⑤将得到的所有分词结果匹配数据库后再加权,得到若干种匹配结果,最后通过相似度计算,得到相似度最高的地址字符串;
所述相似度计算采用余弦相似性算法,每个地址要素的相似度sim(Ai,Bi)计算公式为:
其中,和为需要进行比较的第i对地址要素的向量形式,和为向量和的模;
所述步骤⑤中得到相似度最高的地址字符串的计算公式为:
其中,Pi为第i个地址要素的权重。
2.根据权利要求1所述的地址匹配方法,其特征在于:所述步骤②中待匹配的地址字符串可以为任意字符串。
3.根据权利要求1所述的地址匹配方法,其特征在于:所述步骤③中预处理和所述步骤④中二次处理后得到的分词结果,即地址块集合S为:
S={S1,S2,...,SN}
其中,N为分词后得到的地址块总个数。
4.根据权利要求3所述的地址匹配方法,其特征在于:所述步骤⑤中匹配数据库的具体流程是:首先将所述地址块集合S中第一个地址元素S1匹配数据库,若数据库中存在该地址元素,则返回该地址元素,若不存在,则放宽匹配要求,即采用模糊匹配的方法匹配数据库,直到匹配成功,且输出所有可能的结果;然后再匹配第二个地址元素S2,以此类推,直到最后一个地址元素SN匹配完成。
5.根据权利要求3所述的地址匹配方法,其特征在于:所述步骤⑤中加权规则为:地址块集合S中越靠后的地址元素权值越大,且在所述的匹配数据库的过程中,匹配要求越高的地址元素权值越大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810860041.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:知识体系的建立方法、装置及存储介质
- 下一篇:一种新媒体公共服务平台