[发明专利]一种基于语义识别和高级语言搜索的地址标准化方法在审
申请号: | 202010038989.0 | 申请日: | 2020-01-14 |
公开(公告)号: | CN111291277A | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 王新根;鲁萍;王新宇;许俊杰;张欢欢 | 申请(专利权)人: | 浙江邦盛科技有限公司 |
主分类号: | G06F16/9537 | 分类号: | G06F16/9537;G06F16/29;G06F40/232;G06F40/242;G06F40/289;G06F40/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310012 浙江省杭州市西湖*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 识别 高级 语言 搜索 地址 标准化 方法 | ||
1.一种基于语义识别和高级语言搜索的地址标准化方法,其特征在于,所述地址标准化方法包括:
对原始地址进行分词标注,根据分词标注结果先进行规范化处理,然后再依据分词标注结果作为地址分段信息,并根据如下的分段匹配规则检索标准地址库;
1)将地址分段分为名称和后缀词两部分;
2)对名称根据同音字典、形近字典进行比较;
3)对同一类型的字典库中的后缀词依据同义后缀词典进行匹配;
4)基于编辑距离算法(EditDistance)的进行比较。
根据匹配和比较的结果得到标准地址库中的最佳标准地址;通过原始地址与最佳标准地址的对比,可以对地址的真实性、区域性、同类地址的一致性进行验证,并可以通过地址标准化挖掘数据信息,提高运营效率。
2.根据权利要求1所述的基于语义识别和高级语言搜索的地址标准化方法,其特征在于,所述分词标注通过适用于中文地址分词标记的深度学习模型实现,该模型基于BiLSTM-CRF神经网络算法,用百万条以上的地址数据训练得到。
3.根据权利要求2所述的基于语义识别和高级语言搜索的地址标准化方法,其特征在于,所述分词标注的深度学习模型还包括五级行政区划、自然村、全国道路、住宅区、商务楼宇、银行、医院、学校等字典库,以及结合中文地址以及单位名称的特殊命名规范的分词标注规则。
4.根据权利要求1所述的基于语义识别和高级语言搜索的地址标准化方法,其特征在于,所述规范化处理包括降噪、去重和补缺等,具体为根据行政区划的所属关系,进行分段补全以及分段去重,同时将地址中的噪声词删除,通过去除冗余信息、调整顺序使行政区域、基本区域限定物、局部点位置三大类要素符合中华人民共和国测绘行业标准化指导性技术文件《地理信息公共服务平台地理实体与地名地址数据规范》,同时将地址中行政区划代码转换为地址对应信息。
5.根据权利要求1所述的基于语义识别和高级语言搜索的地址标准化方法,其特征在于,所述标准地址库是以统计局中行政区划数据为基础,民政局数据作为补充,建立标准的行政区划库,并标明其各级所属关系,根据地址中包含的行政区划分段进行地址补全和所属关系判断,以纠正错误的地址行政区划信息;同时在地址库建立行政区划与地址的对应关系表,根据行政区划代码查找对应的地址;并在标准地址库建立噪声词库,删除地址分段中出现在噪声词库中的信息。
6.根据权利要求4所述的基于语义识别和高级语言搜索的地址标准化方法,其特征在于,依据原始输入地址数据的行政区划,以及基本区域限定物名称并依据分段匹配规则在标准地址库中检索,获取对应原始输入地址的标准地址集合,依据集合中每条数据与原始数匹配情况得到唯一的标准地址。
7.根据权利要求1所述的基于语义识别和高级语言搜索的地址标准化方法,其特征在于,所述分段匹配规则包括:在标准地址库建立基于汉字字形结构形成的形近字字典,并根据地理实体名称建立后缀词库;标准地址库根据后缀词库对每个地址分段建立索引,匹配检索时依据分段名称和后缀词可以快速的检索到更多的相似地址数据。
8.根据权利要求7所述的基于语义识别和高级语言搜索的地址标准化方法,其特征在于,所述字形结构指的是独体字、左右结构、左中右结构、上下结构等汉字组成结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江邦盛科技有限公司,未经浙江邦盛科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010038989.0/1.html,转载请声明来源钻瓜专利网。