[发明专利]一种地址匹配方法有效
申请号: | 201810860041.6 | 申请日: | 2018-08-01 |
公开(公告)号: | CN109344263B | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 龙华;吴睿;熊新;邵玉斌;杜庆治 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/387 | 分类号: | G06F16/387 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 地址 匹配 方法 | ||
本发明涉及一种地址匹配方法,属于地理信息数据处理技术领域。首先建立分词词典、地址分级词典与常见地址缩略词替代词典;然后对输入的待匹配的地址字符串进行预处理;其次将预处理中基于正向最大匹配和基于逆向最大匹配中不同的分词结果用基于规则的地址匹配方法和自然语言处理技术进行二次处理;最后将得到的所有分词结果匹配数据库后再加权,得到若干种匹配结果,最后通过相似度计算,得到相似度最高的地址字符串。本发明通过将基于词典的地址匹配方法与基于规则的地址匹配方法进行融合,再结合自然语言处理技术,主要解决了单一的地址匹配方法存在歧义切分,对新词识别率低,从而使得地址匹配结果准确率低的现象,以提高地址匹配的准确性。
技术领域
本发明涉及一种地址匹配方法,属于地理信息数据处理技术领域。
背景技术
随着地理信息技术的快速发展和广泛应用,地址匹配技术能把含有位置的文字信息与空间信息关联起来,从而提供数据分析、定位、制图和可视化等服务,地名地址的智能化、高效率和高准确率匹配在数字城市建设和人们生活中发挥着不可或缺的作用,社会效益与经济效益极其显著。
一般地,基于词典的地址匹配方法虽然能够从一定程度上提高效率与准确率,但是匹配过程过分依赖于词典,在出现未登录词和干扰词的情况下地址匹配的准确率较低;同样地,基于规则的地址匹配方法虽然解决了未登录词识别和歧义切分等问题,但是通用规则的制定存在一定困难。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种地址匹配方法,将基于词典的地址匹配方法与基于规则的地址匹配方法进行融合,再结合自然语言处理技术,对传统的地址匹配方法进行改进,解决了单一的地址匹配方法存在歧义切分,对新词识别率低,从而使得地址匹配结果准确率低的现象,以提高地址匹配的准确性。
本发明的技术方案是:一种地址匹配方法,该方法将基于词典的地址匹配方法与基于规则的地址匹配方法进行融合,再结合自然语言处理技术,对传统的地址匹配方法进行改进,具体包括以下5个步骤:
①建立分词词典、地址分级词典与常见地址缩略词替代词典。
②输入待匹配的地址字符串。
③对输入的待匹配的地址字符串进行预处理。
④将预处理中基于正向最大匹配和基于逆向最大匹配中不同的分词结果用基于规则的地址匹配方法和自然语言处理技术进行二次处理。
⑤将得到的所有分词结果匹配数据库后再加权,得到若干种匹配结果,最后通过相似度计算,得到相似度最高的地址字符串。
进一步地,步骤①所述的分词词典有高度的通用性与高覆盖率,以提高分词的准确率;所述的地址分词词典包含中国所有省份、城市、乡镇、街道、村等行政区划,以在匹配数据库时能有更高的匹配率;所述的常见地址缩略词替代词典用来替代所述地址字符串中的缩略地址,以提高在匹配数据库时的准确率。
进一步地,步骤②所述的待匹配的地址字符串可以为任意字符串。
进一步地,步骤③所述的预处理包含地址分词、去除标点、过滤掉无用信息和常见的地址缩略词替代。
进一步地,所述的地址分词是在分词词典的基础上采用正向最大匹配算法和逆向最大匹配算法,以提高分词的准确率;所述的去除标点和所述的过滤掉无用的信息采用正则表达式来判定;所述的常见的地址缩略词替代是用已建立好的常见地址缩略词替代词典来实现。
进一步地,步骤④所述的基于规则的地址匹配方法具体实现为:当预处理中基于正向最大匹配和基于逆向最大匹配中出现不同的分词结果时,若分词结果中含有主特征字,如省、市、区、镇、路等,则用所述的基于规则的地址匹配方法通过匹配数据库进行歧义消除;否则用所述的自然语言处理技术分别对正向最大匹配算法和逆向最大匹配算法得到的不同的分词结果进行词性标注,然后使用viterbi算法求出概率最大的分词结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810860041.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:知识体系的建立方法、装置及存储介质
- 下一篇:一种新媒体公共服务平台