[发明专利]一种基于地址特征词的多层次快速中文地址匹配方法在审
申请号: | 201410134887.3 | 申请日: | 2014-04-03 |
公开(公告)号: | CN103914544A | 公开(公告)日: | 2014-07-09 |
发明(设计)人: | 杜震洪;张丰;刘仁义;徐聪;张逸然;郑晔 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 张法高 |
地址: | 310027*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 地址 特征 多层次 快速 中文 匹配 方法 | ||
技术领域
本发明属于数据空间化研究领域。尤其涉及一种基于地址特征词的多层次快速中文地址匹配方法。
背景技术
数字城市是以空间信息为核心的城市信息系统体系,在数字城市信息资源的集成和融合中,地址匹配技术作为核心技术,承担着将各个行业大量自然语言描述的空间位置信息转换成地理空间坐标的任务。因此,地址匹配速率及其准确度将对数字城市的建设产生重大而深远的影响。
目前,常用的中文地址匹配方法主要有全文索引、中文分词、地址分级别匹配、正则表达式匹配和模糊地址匹配。赵阳阳等提出基于地址要素识别机制的地址分词方法,在最大正向扫描匹配方法的基础上增加了基于地址要素的识别机制,提高了中文地址分词的准确度,但其匹配速率却出现很大程度的下降。唐静在中文地址编码的研究中利用中文地址的分段、组合和优先规则,对中文地址进行分段匹配,这些规则在一定程度上减少了地址要素的匹配次数,但由于该方法在地址匹配过程中需要与数据库不断进行交互,该方法总体匹配速率较慢。洪莹提出基于双数组trie树和地址要素编码查询的地址匹配方法。该方法先采用双数组trie树对中文地址进行中文分词,并根据其自定义的编码规则获取中文地址分词结果所对应的地址要素编码,然后根据地址要素编码在标准地址数据库中查询具体的地理空间坐标。与其它中文地址分词方法相比,该方法在分词速率方面较快,但还需要通过标准地址数据库查询地理空间坐标,因此,该方法总体速率受到很大的限制。姚心宇尝试运用主特征词及副特征词对地址进行标记,并通过汉字相似度和拼音相似度的计算方式提高地址的匹配率,但该学者并没有对地址匹配速率问题进行深入的研究。程昌秀等采用边分词边匹配的模糊中文分词方法,减少了地址字符串的比较次数,但由于其还是在数据库中查询地理空间坐标,其匹配速率明显慢于双数组trie树分词。张倩等提出基于有限状态机和trie树的分级地址模型,解决了部分地址命名不规范和地址跳跃问题,但对地址匹配速率问题并没有深入讨论。以上研究提出了许多提高地址匹配准确度的解决方法,但对地址匹配速率的研究并不深入。因此,面对当前大规模数量的地址匹配请求,如何快速批量完成地址匹配任务是数据空间化研究领域的一个亟待解决的科学问题。
发明内容
本发明的目的是克服现有技术的不足,提出一种基于地址特征词的多层次快速中文地址匹配方法。
基于地址特征词的多层次快速中文地址匹配方法包括如下步骤:
1)从标准中文地址数据库中读入所有标准中文地址的记录,包括每一个标准中文地址的地理空间坐标x值、y值;
2)根据中文地址的分类规则,以地址特征词为分词依据对标准中文地址进行正向扫描中文分词,将中文分词所获得的5类地址要素插入到对应的5类双数组trie树中;
3)从5类双数组trie树中获取标准中文地址所对应的地址编码元素集合,按照最小代价原则,以中文地址的分层和组合规则为依据对地址编码元素进行组合和排列,获取唯一表示该标准中文地址的4个地址编码,对这4个地址编码进行哈希运算,将该标准中文地址的地理空间坐标存储在哈希表中其哈希函数值对应的位置上,对所有标准中文地址依次进行步骤2)~步骤3)的操作,完成标准中文地址匹配词典构建;
4)读取待匹配中文地址字符串,分别赋值S1和S2,同时进行正向扫描匹配和逆向扫描匹配;
5)判断正向扫描匹配和逆向扫描匹配是否成功,若正向扫描匹配或逆向扫描匹配失败,返回步骤4);若正向扫描匹配和逆向扫描匹配成功,获取对应匹配结果的地址编码组合T1和T2;
6)设地址编码T = T1 + T2,对T进行哈希运算,通过哈希函数值在哈希表中查找对应的地理空间坐标,若存在,获取对应地理空间坐标,地址匹配成功,若不存在,地址匹配失败,重复步骤4)~步骤6),完成所有待匹配中文地址的地址匹配。
所述的步骤2)为:
(1)中文地址的分类规则是指一个指意明确的标准中文地址由行政区划名、街巷名、小区名、门楼址名和兴趣点名这5类地址要素组成,其中地址要素是指地址字符串中一个相对独立的部分,具有明确的地址意义;
(2)正向扫描中文分词方法是一种从字符串序列起首位置开始,从左往右依次对字符串进行切分的方法;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410134887.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:儿童推车后篮折叠机构的折叠固定座
- 下一篇:案件嫌疑人自动排查的分析方法