[发明专利]基于语义分词技术的地名地址可视化分析方法在审
申请号: | 202010041836.1 | 申请日: | 2020-01-15 |
公开(公告)号: | CN111222345A | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 卢广师 | 申请(专利权)人: | 合肥慧图软件有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/242;G06F16/903 |
代理公司: | 合肥汇融专利代理有限公司 34141 | 代理人: | 杨家坤 |
地址: | 230000 安徽省合肥*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 分词 技术 地名 地址 可视化 分析 方法 | ||
本发明公开了一种基于语义分词技术的地名地址可视化分析方法。包括步骤:获取初始地址数据,对所述初始地址数据进行地址清洗,生成清洗后的地址数据;对所述清洗后的地址数据进行拆分,生成拆分后的地址数据;获取并分析所述现有地址数据,生成地址模型;根据存储和收集的所述地址模型,生成标准地址库;根据所述标准地址库,对所述拆分后的地址数据进行地址库匹配,生成匹配结果。本发明能够解决现有技术的不足。
技术领域
本发明涉及地名地址可视化分析技术领域,具体涉及一种基于语义分词技术的地名地址可视化分析方法。
背景技术
根据地址词典,为数据库中每条记录的匹配结果添加地理坐标,由此可以快速准确的把包含地址信息的普通数据变成地理对象显示在地图上。除此之外还有批量处理模式,可以对数百万数据表记录进行匹配,甚至可以利用ODBC实现远程匹配等。具备实时更新的地址数据词典可以用于提高地址匹配的准确性和容错率。
各行各业都在自己的应用系统基础上建立了一套编码系统,有自己独特的地理单元划分标准,虽然国家标准给出了词和分词单位的非形式定义,但这些编码体系在空间单元上并没有统一的、标准的地理参考系统,它们在数字城市的管理中,最小单元的边界都不相同,使得相互之间很难共享信息资源。同时,城市地理信息资源的分类没有标准,也没有统一的地理代码,限制了现代化手段的使用。
发明内容
针对现有技术的不足,本发明公开一种基于语义分词技术的地名地址可视化分析方法,能够解决现有技术的不足。
为实现以上目的,本发明通过以下技术方案予以实现:
基于语义分词技术的地名地址可视化分析方法,包括以下步骤:
S1:获取初始地址数据,对所述初始地址数据进行地址清洗,生成清洗后的地址数据;
S2:对所述清洗后的地址数据进行拆分,生成拆分后的地址数据;
S3:获取并分析所述现有地址数据,生成地址模型;
S4:根据存储和收集的所述地址模型,生成标准地址库;
S5:根据所述标准地址库,对所述拆分后的地址数据进行地址库匹配,生成匹配结果。
优选的技术方案,还包括步骤S21对所述清洗后的地址数据进行数据排错,生成错误数据结果。
进一步优选的技术方案,还包括步骤S22根据所述错误数据结果对初始地址数据进行批量预处理。
优选的技术方案,还包括步骤S6评价匹配结果的精度,生成精度结果。
本发明公开一种基于语义分词技术的地名地址可视化分析方法,具有以下优点:
中文语义地址模型:以普查数据为基础,分析现有地址数据结构,总结地址数据特点及现有模型的劣势,并提出基于语义的地址模型构建方法。
中文语义标准地址库建设:标准地址库作为地址匹配的本底数据在基于语义的地质模型构建基础之上,进行地址库结构设计,并利用建筑物普查数据构建标准地址库。
基于语义分析的地址匹配方法:在已有地址模型的基础上,利用自然语言处理的方法完成地址拆分、地址解析和地址库匹配,以及不确定性有限状态机进行地址解析,纠正常见的错误地址,通过隐含马尔可夫模型与信息论原理实现地址库匹配。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥慧图软件有限公司,未经合肥慧图软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010041836.1/2.html,转载请声明来源钻瓜专利网。