[发明专利]基于深度学习的地址数据解析方法在审
| 申请号: | 202010011871.9 | 申请日: | 2020-01-07 |
| 公开(公告)号: | CN111209362A | 公开(公告)日: | 2020-05-29 |
| 发明(设计)人: | 张磊;陶虹;张旭方 | 申请(专利权)人: | 苏州城方信息技术有限公司 |
| 主分类号: | G06F16/29 | 分类号: | G06F16/29;G06F16/35;G06F40/289;G06N20/00 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 215006 江苏省苏州市工业园*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 学习 地址 数据 解析 方法 | ||
本发明涉及一种基于深度学习的地址数据解析方法,将地址数据按照地址解析要求映射到相应关键地块信息进行多维度的数据标注,标注后的关键地块信息数据具有不同类别的标签地址名称内容文本;将所述多维度标注的地址名称内容文本进行分词处理生成地址训练数据;构建BiLSTM‑CNN‑CRF模型进行训练。本发明从地名地址解析的实际业务中遇到的问题出发,构建相应的地址解析抽象建模和数据多维度标注,将该业务中繁琐的分词‑匹配‑识别的过程解放出来,实现了端到端的融合处理方式。
技术领域
本发明属于地名地址解析技术领域,具体涉及基于深度学习的地址数据解析方法。
背景技术
在信息时代的今天,城市各部门都存有大量与地址有关的地理位置信息,这些数据大多是非空间信息,无法通过地理信息系统来实现行业之间的数据共享。因此,城市地址信息空间化是数字城市建设的重要组成部分。
地理编码技术正是实现城市地址信息空间化的方法,它提供了一种将文本描述的地址信息转换为地理坐标的方式,通过编码技术和地址匹配来确定此地址数据在电子地图上对应的地理实体位置。通过地理编码技术,大量的社会经济数据将变成坐标化的空间信息,从而进行更快速有效的空间分析,为政府决策提供支持。
自然语言处理(Natural Language Processing,NLP)是一种让计算机能够理解人类语言的技术。其中,分词技术是一种基础任务。国际上常用的NLP算法,深层次的语法语义分析通常都是以词作为基本单位,分词通常是NLP的首要任务。当建立NLP领域的模型时,往往需要建模人员掌握一定的语言学知识才能够提取合适的特征。深度学习具有优秀的泛化能力,能够无监督地基于数据抽取特征,深度学习的优势就在于,从训练数据中学习到上下文信息特征,实验者需要做的部分是设计神经网络的结构,提供优质的训练数据。利用地理编码技术实现地址的快速查询匹配和社会经济数据的空间化,建立数据库统一管理,从而实现城市各部门、行业数据的共享。需要现有的地址分词模型,大幅度的提高了分词的准确率。本发明通过构建基于深度学习的地址解析算法,提高了地址残缺和歧义这两类模糊地址的解析成功率。
发明内容
技术问题:本发明针对传统的地名地址解析使用数据库全量检索匹配的方式(分词-匹配-识别),出现解析的速度慢和成功率低的问题,提供了一种基于深度学习的地址数据解析方法。本发明从地名地址解析的实际业务中遇到的问题出发,构建相应的地址解析抽象建模和数据多维度标注,将该业务中繁琐的分词-匹配-识别的过程解放出来,实现了端到端的融合处理方式。
本发明将地址建模成为一个提取地址数据中关键地块信息的过程,进一步将该提取信息的过程抽象为对地块信息的多类别分类问题。在建立地址解析的深度学习模型时,将地址数据按照地址解析的需求继续多维度的数据标注,标注后的地址数据具有不同的标签内容,具体的是对地址数据中行政区划、道路、地块、门牌、楼栋、户室和干扰信息进行多类别的标注,其中重要的是对残缺和歧义的地址也按照相同的标注方式进行多维度标注。其中,训练出模型可以识别出地址中相应的地块信息,并能自动剔除掉地址数据中干扰和无用信息,大大提高了解析的准确度和速度。
技术方案:本发明公开了一种基于深度学习的地址数据解析方法,包括:
将地址数据按照地址解析要求映射到相应关键地块信息进行多维度的数据标注,标注后的关键地块信息数据具有不同类别的标签地址名称内容文本;将所述多维度标注的地址名称内容文本进行分词处理生成地址训练数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州城方信息技术有限公司,未经苏州城方信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010011871.9/2.html,转载请声明来源钻瓜专利网。





