[发明专利]基于语义分词技术的地名地址可视化分析方法在审

申请号：	202010041836.1	申请日：	2020-01-15
公开（公告）号：	CN111222345A	公开（公告）日：	2020-06-02
发明（设计）人：	卢广师	申请（专利权）人：	合肥慧图软件有限公司
主分类号：	G06F40/30	分类号：	G06F40/30;G06F40/242;G06F16/903
代理公司：	合肥汇融专利代理有限公司 34141	代理人：	杨家坤
地址：	230000 安徽省合肥***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于语义分词技术地名地址可视化分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于语义分词技术的地名地址可视化分析方法。包括步骤：获取初始地址数据，对所述初始地址数据进行地址清洗，生成清洗后的地址数据；对所述清洗后的地址数据进行拆分，生成拆分后的地址数据；获取并分析所述现有地址数据，生成地址模型；根据存储和收集的所述地址模型，生成标准地址库；根据所述标准地址库，对所述拆分后的地址数据进行地址库匹配，生成匹配结果。本发明能够解决现有技术的不足。

技术领域

本发明涉及地名地址可视化分析技术领域，具体涉及一种基于语义分词技术的地名地址可视化分析方法。

背景技术

根据地址词典，为数据库中每条记录的匹配结果添加地理坐标，由此可以快速准确的把包含地址信息的普通数据变成地理对象显示在地图上。除此之外还有批量处理模式，可以对数百万数据表记录进行匹配，甚至可以利用ODBC实现远程匹配等。具备实时更新的地址数据词典可以用于提高地址匹配的准确性和容错率。

各行各业都在自己的应用系统基础上建立了一套编码系统，有自己独特的地理单元划分标准，虽然国家标准给出了词和分词单位的非形式定义，但这些编码体系在空间单元上并没有统一的、标准的地理参考系统，它们在数字城市的管理中，最小单元的边界都不相同，使得相互之间很难共享信息资源。同时，城市地理信息资源的分类没有标准，也没有统一的地理代码，限制了现代化手段的使用。

发明内容

针对现有技术的不足，本发明公开一种基于语义分词技术的地名地址可视化分析方法，能够解决现有技术的不足。

为实现以上目的，本发明通过以下技术方案予以实现：

基于语义分词技术的地名地址可视化分析方法，包括以下步骤：

S1：获取初始地址数据，对所述初始地址数据进行地址清洗，生成清洗后的地址数据；

S2：对所述清洗后的地址数据进行拆分，生成拆分后的地址数据；

S3：获取并分析所述现有地址数据，生成地址模型；

S4：根据存储和收集的所述地址模型，生成标准地址库；

S5：根据所述标准地址库，对所述拆分后的地址数据进行地址库匹配，生成匹配结果。

优选的技术方案，还包括步骤S21对所述清洗后的地址数据进行数据排错，生成错误数据结果。

进一步优选的技术方案，还包括步骤S22根据所述错误数据结果对初始地址数据进行批量预处理。

优选的技术方案，还包括步骤S6评价匹配结果的精度，生成精度结果。