[发明专利]基于Jieba分词及地址词库的地理编码方法和系统在审

专利信息
申请号: 201910220419.0 申请日: 2019-03-21
公开(公告)号: CN109933797A 公开(公告)日: 2019-06-25
发明(设计)人: 童蔚苹;张嘉旭;张悦;韦茵 申请(专利权)人: 东南大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/22;G06F16/29;G06F16/903
代理公司: 南京众联专利代理有限公司 32206 代理人: 许小莉
地址: 210096 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 地址字符串 地理坐标 分词 地址数据库 标准地址 地理编码 模糊匹配 词库 匹配 标准化 采集 地址标准化 地址匹配 地址数据 地址数组 地址映射 分词模块 匹配模块 映射模块 映射 父级 算法 编程 保存 返回
【说明书】:

发明公开了一种基于Jieba分词及地址词库的地理编码方法和系统。本发明的方法包括:步骤1:采集地址数据,建立地址数据库;步骤2:对用户输入的地址字符串进行分词;步骤3:进行两轮地址匹配与地址标准化;步骤4:将标准地址映射为地理坐标。本发明的系统包括:地址数据库,用于保存采集到的八级标准地址数据和其地理坐标;分词模块,用于将用户输入的地址字符串进行拆分;精确匹配模块,用于对拆分后的地址数组进行逐级精确匹配,并补全父级地址;模糊匹配模块,用于对未精确匹配的地址字符串进行模糊匹配,并完成地址的标准化;映射模块,用于将标准化的地址映射为地理坐标,并返回给用户。本发明算法简单易懂,易于编程实现。

技术领域:

本发明涉及一种基于Jieba分词及地址词库的地理编码方法和系统,属于地理编码地址解析技术领域。

背景技术:

地理编码是涉及地址与地理坐标转换的地理信息系统工作的基础。我们通常使用的是非标准化的地址,任何通过用户输入地址得到地理坐标的软件都要实现通过非标准化地址得到正确的地理坐标。为了得到正确的地理坐标,必须对非标准的地址进行标准化,并解析出其地理坐标,从而进行更进一步的地理分析与位置服务。

地理编码系统的研究起源于美国,在其基础上开发的地理编码软件工具在环境保护、城市规划等众多领域发挥了重要作用。但由于中文地址分级与英文地址不同,包含的词语多义、语法复杂等特点,在英文地理编码系统基础上建立的地理编码软件并不能完全应用在中文地理信息库上。

为了促进城市市政综合监管信息系统建设,中文地理编码标准应运而生。而随着GIS技术的发展,越来越多的工作需要使用非标准化地址获取地理坐标,根据中文地理编码标准标准化用户输入的非标准化地址,并得到正确的地理坐标成为了许多工作的共同需求。

目前较为常用的地理编码依据匹配方式可分为基于规则和统计,街道匹配,模糊地址匹配等。除此之外,还有许多其他的匹配方式。但由于中文的复杂性,和不同地区地址组成的差异性,这些匹配方式都还存在一些问题。为满足现在数量庞大的地理编码和地理坐标转换的需求,提出一个高效的地理编码方法和系统十分必要。

发明内容

本发明的目的是提供一种基于Jieba分词及地址词库的地理编码方法和系统,算法简单易懂,易于编程实现,有利于地理信息的交流传播,促进行业以及社会发展。

上述的目的通过以下技术方案实现:

一种基于Jieba分词及地址词库的地理编码方法,该方法包括如下步骤:

步骤1:采集地址数据,建立地址数据库;

步骤2:对用户输入的地址字符串进行分词;

步骤3:进行两轮地址匹配与地址标准化;

步骤4:将标准地址映射为地理坐标。

所述的基于Jieba分词及地址词库的地理编码方法,所述的地址数据库分为为八级,分别为国家、省或直辖市、市、区县、乡镇或街道、道路片区、POI、详细说明,每一级的主码为其ID,外码为其父级的ID。

所述的基于Jieba分词及地址词库的地理编码方法,所述地址数据库中的记录按其词频和首字母排序。

所述的基于Jieba分词及地址词库的地理编码方法,所述对用户输入的地址字符串进行分词是利用Jieba分词的“精确模式”进行中文地址字符串分词,并利用Jieba分词的“自定义词典”,导入地址数据库中的词库,提高分词准确度。

所述的基于Jieba分词及地址词库的地理编码方法,所述两轮地址匹配包括:

第一轮精确匹配:遍历分词后地址数组,利用字符串判等规则与地址数据库中的地址记录逐级进行精确匹配,直到所能匹配的最低级为止,并以此逐级补全其所有父级地址。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910220419.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top