[发明专利]一种加快非结构化企业地址转换为经纬度的方法在审
| 申请号: | 202110243891.3 | 申请日: | 2021-03-05 |
| 公开(公告)号: | CN112949260A | 公开(公告)日: | 2021-06-11 |
| 发明(设计)人: | 商亮;张永辉 | 申请(专利权)人: | 浪潮云信息技术股份公司 |
| 主分类号: | G06F40/157 | 分类号: | G06F40/157;G06F40/289;G06F40/242;G06F16/31;G06F16/33;G06F16/29 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 阚恭勇 |
| 地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 加快 结构 企业 地址 转换 经纬度 方法 | ||
1.一种加快非结构化企业地址转换为经纬度的方法,其特征在于,
使用地址数据训练后的分词器、地址组合规则和城市地址字典三项手段,对地址进行分词,形成原始地址要素数组;利用空间化数据的特点,剔除地址要素数组中不影响最终精度的部分,得到简化的地址要素数组;建立多叉树,按照地址要素分层结构存储地址转换结果,供后续地址转换查询利用。
2.根据权利要求1所述的方法,其特征在于,
具体包括:
(1)使用特化的分词工具以及先验知识对企业地址进行分词;
(2)对分词后的企业地址数据进行结构化重组,剔除对转换精度影响较少的部分;
(3)对重组后的企业地址数据进行空间化经纬度转换;
(4)对转换后的数据,针对分词后的企业地址和空间化经纬度转换结果,形成一棵多叉树,供第(3)步的转换工作检索使用。
3.根据权利要求2所述的方法,其特征在于,
建立一棵多叉树,缓存已经解析过的非结构化地址数据,并提供已转换的地址数据的快速检索功能;内节点为地址分词结果的各部分,叶节点为结构化数据;地址通过分词工具和先验知识分割为一个以上的部分;
其中,多叉树的根节点作为查询搜索的起始点,并不会存放信息,是一个空节点;而多叉树的内节点则存储着地址分词结果的每一部分,同一高度内,节点间按拼音音序从小到大排列。
最后,叶子结点存储着一个空间化的经纬度数据,表示从根节点进行深度优先搜索到此叶子结点过程中遍历到的地址分词部分组合成的非结构化地址数据对应的空间化经纬度数据。
4.根据权利要求3所述的方法,其特征在于,
遍历地址库,使用特化的分词工具和先验知识对非结构化地址进行分词;
在进行地址的空间化转换前,首先需要对非结构化地址进行分词处理;
针对地址的中文分词器需要使用地址进行训练,以提高其针对地址的分词准确性;其次,使用关于地址的先验知识对分词结果进行验证和再处理;
这些先验知识包括地址的组合规则和城市地址词典;
对于一个地址,省下一部分为市,市下一部分为区或县,区县下一部分为镇、街道等,根据这一规则,对分词结果的一部分在城市地址字典中的对应层级进行完整匹配,若成功匹配,进行下一部分的验证,否则,使用该部分及后续所有部分作为参数,在城市地址字典中进行正向最大匹配,即让地址数据按照正向递减的遍历规则依次与词典中词条进行匹配,保留最大长度;匹配成功后,剩余部分继续递归进行分词、校验和匹配流程,直至整个地址分割为每个均已进行校验的部分,或者城市地址字典无对应层级。
5.根据权利要求4所述的方法,其特征在于,
所述剔除分词结果中不影响最终精度的部分。
将企业地址分割为若干个可供验证的部分,并注意到分词结果的最后存在表示层数或园区具体位置的部分或地址的前半部分相同,仅在层数、房间号、园区具体位置不同,可以对这些部分进行剔除。
6.根据权利要求5所述的方法,其特征在于,
使用处理后的分词结果在多叉树中查找对应的空间化数据;根据得出的地址分词结果,在第一步中建立的多叉树中搜索已有的转换结果;
若该过程中某一个分词部分无法搜索到,表明这个分词结果对应的地址尚未进行空间化经纬度转换。
7.根据权利要求6所述的方法,其特征在于,
使用处理后的分词结果在地理编码API中进行空间化经纬度转换;经过处理的结果作为一连串的地址位置要素的组合,需要重新连接成一个非结构化的地址字符串,并进行实际的空间化转换。相比于第二步处理前的原地址,新连接的地址被剔除了不影响最终转换精度的部分。
8.根据权利要求7所述的方法,其特征在于,
将地理编码API的转换结果插入多叉树中对应分词结果的叶节点;通过得到空间化地址数据后,将其组合成“地址要素数组-空间化数据”的键值对;对于键“地址要素数组”,将其中每个部分按照从左到右的顺序插入第一步生成的多叉树中,若已存在对应节点,则处理下一个部分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮云信息技术股份公司,未经浪潮云信息技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110243891.3/1.html,转载请声明来源钻瓜专利网。





