[发明专利]一种加快非结构化企业地址转换为经纬度的方法在审
| 申请号: | 202110243891.3 | 申请日: | 2021-03-05 |
| 公开(公告)号: | CN112949260A | 公开(公告)日: | 2021-06-11 |
| 发明(设计)人: | 商亮;张永辉 | 申请(专利权)人: | 浪潮云信息技术股份公司 |
| 主分类号: | G06F40/157 | 分类号: | G06F40/157;G06F40/289;G06F40/242;G06F16/31;G06F16/33;G06F16/29 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 阚恭勇 |
| 地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 加快 结构 企业 地址 转换 经纬度 方法 | ||
本发明提供一种加快非结构化企业地址转换为经纬度的方法,属于数据处理技术领域,本发明使用地址数据训练后的分词器、地址组合规则和城市地址字典三项手段,对地址进行分词,形成原始地址要素数组;利用空间化数据的特点,剔除地址要素数组中不影响最终精度的部分,得到简化的地址要素数组;建立多叉树,按照地址要素分层结构存储地址转换结果,供后续地址转换查询利用。本发明可以有效地满足短时间内使用有限的资源将大批量的非结构化地址数据转换为空间化经纬度数据的需求。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种加快非结构化企业地址转换为经纬度的方法。
背景技术
现今部门中存储着大量与企业地址有关的信息,例如市场监管部门中存储的企业注册地址、经营地址等信息。这些企业地址信息基本上是非结构化、非空间化的数据,以字符串的形式存储在数据库中。某些情况下,需要将这些非结构化的企业地址数据转换为空间化的地址数据,如转换为经纬度地理数据,供后续进行分析或在GIS展现。
目前,地址经纬度转换的方法一般是批量获取非结构化地址数据,以此为参数请求地图供应商的地理编码API,从而得到对应的空间化经纬度数据。但是地图供应商提供的API通常会限制每日的最大调用量和每秒并发量,因此降低了转换的效率。其次,将地址库每个地址都作为参数请求地理编码API,而不注意这些地址之间存在的共性,也会造成地图供应商资源浪费,因此在精度损失可以接受的前提下,制定算法充分分析利用地址间的共性,从而减少调用地理编码API的次数,是可以有效提高转换效率的。
综上,目前使用的方法难以在短时间内将大量非结构化地址转换为空间化经纬度数据,存在流程和技术手段上的优化空间。
发明内容
为了解决以上技术问题,本发明提供了一种加快非结构化企业地址转换为经纬度的方法。
针对企业注册地址、经营地址等某些方面具有聚集性特质(大部分企业会选择在写字楼、工业区进行办公)的地址数据,在保证一定程度的精确度的前提下,为了快速将大量以字符串形式存储的非结构化地址数据转换成空间化经纬度数据,并尽可能减少资源占用、API调用次数等,使用地址分词、结构化重组、缓存等手段进行处理。
一种加快非结构化企业地址转换为经纬度的方法,使用地址数据训练后的分词器、地址组合规则和城市地址字典三项手段,对地址A进行分词,形成原始地址要素数组B;利用空间化数据的特点,剔除地址要素数组中不影响最终精度的部分,得到简化的地址要素数组C;建立多叉树T,按照地址要素分层结构存储地址转换结果,供后续地址转换查询利用。
具体包括如下步骤:
(1)使用特化的分词工具以及先验知识对企业地址进行分词;
(2)对分词后的企业地址数据进行结构化重组,剔除对转换精度影响较少的部分;
(3)对重组后的企业地址数据进行空间化经纬度转换;
(4)对转换后的数据,针对分词后的企业地址和空间化经纬度转换结果,形成一棵多叉树,供第三步的转换工作检索使用。
通过上述步骤,比起将企业地址库中每一条企业地址数据都直接进行空间化经纬度转换,上述方法利用了部分企业地址在前半段相同,仅在楼层数、房间号不同的特质,从而舍弃不影响空间化经纬度转换精确度的部分,总体上减少了大量企业地址进行空间化经纬度转换的时间和资源占用
进一步的,
建立一棵多叉树,缓存已经解析过的非结构化地址数据,并提供已转换的地址数据的快速检索功能;内节点为地址分词结果的各部分,叶节点为结构化数据;地址通过分词工具和先验知识分割为一个以上的部分;
其中,多叉树的根节点作为查询搜索的起始点,并不会存放信息,是一个空节点;而多叉树的内节点则存储着地址分词结果的每一部分,同一高度内,节点间按拼音音序从小到大排列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮云信息技术股份公司,未经浪潮云信息技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110243891.3/2.html,转载请声明来源钻瓜专利网。





