[发明专利]一种基于中文分词器的地址匹配方法及系统有效
申请号: | 202011572828.6 | 申请日: | 2020-12-23 |
公开(公告)号: | CN112612863B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 任福;张琛;杜清运;张红伟;龚丽芳;陈张建;陈凯 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/29 | 分类号: | G06F16/29;G06F16/2458;G06F16/22 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 严彦 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 中文 分词 地址 匹配 方法 系统 | ||
本发明提供一种基于中文分词器的地址匹配方法及系统,进行地址数据集准备,包括多源地址数据的清洗和去重;地址匹配索引库创建,包括依据地址结构特点构建带有地理属性的地址分级数据库并生成索引文件;地址匹配引擎构建,包括对地址分级数据库中的地址元素进行编码,构建基于三叉拼音搜索树的中文地址分词器,增加匹配集的二次比对计算,形成一种基于分词器的匹配引擎;在地址匹配引擎的基础上实现正向或逆向的地址匹配。本发明对多源地址进行了集成,提供了一套地址数据库的构建和编码方案,面向非标准地址的查询,能够对含有拼音和同义词的地址进行解析且提供匹配地址集。本发明提供的地址匹配接口能有效的服务于市政、物流、导航等应用。
技术领域
本发明涉及地理信息系统领域,特别是涉及一种基于中文分词器的地址匹配方法及系统。
背景技术
地址是地理数据的文本形态之一,承载着丰富语义和空间信息,是构建智慧城市中地理本体与语义框架的基石。地址匹配涉及地址分词、解析、标准化等流程,利用地址的空间语义、语言结构等特点,在文本信息到地理坐标的转换间建立了关联,为工商、民政、税务、导航等领域提供新的数据查询方式和调度策略,已逐渐展现出其极高的应用价值。地址匹配技术也因此被认为是智慧城市建设过程中,各行业专题数据实现空间化的核心技术手段。针对地址匹配的研究已经成为当前地理信息科学领域的热点,尤其是在提高地址匹配精度问题方面具有重要的研究意义。
地址匹配系统在构建和使用过程中涉及到两种地址数据:原始型地址数据和输入型地址数据。原始型数据,通常来自民政或公安部门采集,用于构建分词词典或生成地理编码模型。一方面,多源地址数据的集成过程面临着大量地址非标准、重复地址较多的问题,另一方面复杂的地址描述和无序的元素组合增加了地址分词与建库难度;输入型数据,地理编码系统使用者输入地址时并非按照严格的标准形式,出现了表述不一但在空间中指向同一地址的情况,也称非标准地址,对于非标准地址的解析也成为了地址匹配问题的挑战之一。
因此,两个方面的聚焦研究将有助于提高地址匹配系统的匹配精度,一是根据原始型地址数据特点构建覆盖度广的、精准度高的、编码方案科学的地址数据库,为地址匹配引擎提供数据分析的基础性支撑。二是根据输入型地址常出现的非标准形式,改进传统搜索引擎的中文分词器构造,创建适用于地址解析的分词器,为后续搜索提供正确的分词结果。
发明内容
为了解决上述技术问题,本发明提供一种基于中文分词器的地址匹配方法与系统,其内容包括将多源数据进行清洗去重、根据地址结构特点构建带有地理特征的地址分级数据库、带有地址元素类型语义信息的地址编码、基于拼音三叉树的地址分词器、对待匹配数据集二次比对,并基于此方法设计正、逆向的地址匹配服务。
为了实现上述目的,本发明技术方案提供一种基于中文分词器的地址匹配方法,包括以下步骤:
步骤1,地址数据集准备,包括多源地址数据的清洗和去重;
步骤2,地址匹配索引库创建,包括依据地址结构特点构建带有地理属性的地址分级数据库并生成索引文件;
步骤3,地址匹配引擎构建,包括对地址分级数据库中的地址元素进行编码,构建基于三叉拼音搜索树的中文地址分词器,增加匹配集的二次比对计算,形成一种基于分词器的匹配引擎;
步骤4,在地址匹配引擎的基础上实现正向或逆向的地址匹配。
而且,所述步骤1中,所述多源地址数据包括公安地址数据、工商法人地址数据、导航地图地址数据、建筑物信息中的地址数据,应用邻近排序,根据自定义窗口大小对窗口内数据进行比较,选取多源数据中表征同一地理标志的较标准地址。
而且,所述步骤2中,将地址结构特点定义为由行政区划名称、基本区域限定、定位点描述组成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011572828.6/2.html,转载请声明来源钻瓜专利网。