[发明专利]一种基于中文分词器的地址匹配方法及系统有效
申请号: | 202011572828.6 | 申请日: | 2020-12-23 |
公开(公告)号: | CN112612863B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 任福;张琛;杜清运;张红伟;龚丽芳;陈张建;陈凯 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/29 | 分类号: | G06F16/29;G06F16/2458;G06F16/22 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 严彦 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 中文 分词 地址 匹配 方法 系统 | ||
1.一种基于中文分词器的地址匹配方法,其特征在于:包括以下步骤:
步骤1,地址数据集准备,包括多源地址数据的清洗和去重;
步骤2,地址匹配索引库创建,包括依据地址结构特点构建带有地理属性的地址分级数据库并生成索引文件;
步骤3,地址匹配引擎构建,包括对地址分级数据库中的地址元素进行编码,构建基于三叉拼音搜索树的中文地址分词器,增加匹配集的二次比对计算,形成一种基于分词器的匹配引擎;
所述构建基于三叉拼音搜索树的中文地址分词器,实现方法如下,
将拼音作为节点融入三叉搜索树中生成拼音三叉搜索树,如果各级节点的拼音形成词在分词库中出现,则在该节点上添加地址元素数组用于正向匹配,形成以拼音三叉搜索树为模型和以最大正向匹配算法为原则的地址分词器;同时定义同义词替换类型,在分词器中配置同义词文本,通过检测同义词文本中是否包含分词集合中的词来确定是否执行同义词的替换;
步骤4,在地址匹配引擎的基础上实现正向或逆向的地址匹配。
2.根据权利要求1所述的基于中文分词器的地址匹配方法,其特征在于:所述步骤1中,所述多源地址数据包括公安地址数据、工商法人地址数据、导航地图地址数据、建筑物信息中的地址数据,应用邻近排序,根据自定义窗口大小对窗口内数据进行比较,选取多源数据中表征同一地理标志的较标准地址。
3.根据权利要求1所述的基于中文分词器的地址匹配方法,其特征在于:所述步骤2中,将地址结构特点定义为由行政区划名称、基本区域限定、定位点描述组成。
4.根据权利要求3所述的基于中文分词器的地址匹配方法,其特征在于:地址分级包括行政区划名称划分为5级,按照等级由高到低其元素通名分别为省、市、县或区、乡镇或街道、行政村或社区;基本区域限定划分为2个,按照类型分别是道路与片区,道路通名包括道、路、街、巷、弄,片区通名包括小区、苑、园、阁、工业区、开发区;定位点描述划分为3个,按照类型分别是门牌号、楼栋号和标志物或POI,门牌号通名为号,楼栋号通名包括栋、楼、幢。
5.根据权利要求4所述的基于中文分词器的地址匹配方法,其特征在于:所述步骤3中,对地址分级数据库中的地址元素进行编码实现如下,
采用21字符位地理编码方案对每条地址创建唯一识别码,其中,行政区划编码共12位,依次为2位省级行政区划顺序码、2位市级行政区划顺序码、3位乡镇或街道级行政区划顺序码、3位行政村或社区级行政区划顺序码;地址类型编码共1位,地址流水顺序编码共8位。
6.根据权利要求1所述的基于中文分词器的地址匹配方法,其特征在于:所述步骤3中,增加匹配集的二次比对计算,实现方式为在搜索引擎第一次返回待匹配数据集后,使用编辑距离作为第二次比较地址匹配度的指标。
7.根据权利要求1所述的基于中文分词器的地址匹配方法,其特征在于:所述步骤4中,正向匹配服务类型包括单条地址精准分词匹配查询、单条地址细粒度匹配查询、批量地址精准分词匹配查询;逆向匹配服务类型包括指定经纬度的最近邻k个点要素查询、指定搜索半径的中心点圆形范围查询。
8.一种基于中文分词器的地址匹配系统,其特征在于:用于实现如权利要求1-7任一项所述的一种基于中文分词器的地址匹配方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011572828.6/1.html,转载请声明来源钻瓜专利网。