[发明专利]地址信息解析方法、装置、系统及数据获取方法在审
| 申请号: | 201910684395.4 | 申请日: | 2019-07-26 |
| 公开(公告)号: | CN110569322A | 公开(公告)日: | 2019-12-13 |
| 发明(设计)人: | 李男一;徐亮 | 申请(专利权)人: | 苏宁云计算有限公司 |
| 主分类号: | G06F16/29 | 分类号: | G06F16/29;G06F16/33;G06F16/9537;G06N3/08 |
| 代理公司: | 11111 北京市万慧达律师事务所 | 代理人: | 顾友 |
| 地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 地址信息 地理实体 数组 解析 行政区划 特征向量 申请 自然语言处理技术 特征选择算法 准确度 地理编码 数据获取 提取特征 预测模型 原始数据 占用资源 规则库 向量化 构建 去重 预设 排序 预测 优化 | ||
1.一种地址信息解析方法,其特征在于,所述方法包括:
获取原始数据中的待解析地址信息;
将所述待解析地址信息利用自然语言处理技术提取特征并对提取出的特征进行选择,将选择的特征向量化得到待识别特征向量;
将所述待识别特征向量输入预设模型得到包括地理实体及地理实体对应的行政区划级别的初始数组;
按照行政区划级别对所述初始数组中的地理实体进行排序去重以得到标准数组;
对所述标准数组进行编码得到地理编码结果。
2.如权利要求1所述的地址信息解析方法,其特征在于,在将所述待解析地址信息利用自然语言处理技术进行特征提取前,所述方法还包括:
根据预存的历史地址信息解析记录,判断所述待解析地址信息是否被解析过;所述历史地址信息解析记录包括历史地址信息及对应的历史地理编码数据;
若被解析过,则获取对应的历史地理编码数据作为地理编码结果;
所述将所述待解析地址信息利用自然语言处理技术提取特征包括:若未被解析过,则将所述待解析地址信息利用自然语言处理技术进行特征提取。
3.如权利要求1所述的地址信息解析方法,其特征在于,在对所述标准数组进行编码得到地理编码结果前,所述方法还包括:
将所述标准数组与预存的地理位置树形字典进行匹配,判断所述标准数组是否有缺失;所述地理位置树形字典按照行政区域逐级划分形成;
若有缺失,则根据所述地理位置树形字典对所述标准数组补全;
所述对所述标准数组进行编码得到地理编码结果包括对补全后的所述标准数组进行编码得到地理编码结果。
4.如权利要求1所述的地址信息解析方法,其特征在于,所述对所述标准数组进行编码得到地理编码结果包括:
调用外部服务器的编码接口,对所述标准数组进行编码得到地理编码结果。
5.如权利要求1-4任一项所述的地址信息解析方法,其特征在于,所述方法还包括预先构建所述预设模型的步骤:
对样本集合中的地址数据进行语料标注,获得标注了样本地理实体和样本地理实体对应的行政区划的样本数组;
利用自然语言处理技术提取所述样本集合中的地址数据的初级特征并将符合一定条件的初级特征确定为目标特征,对所述目标特征进行向量化得到样本特征向量;
将所述样本特征向量作为输入,将对应的样本数组作为输出,使用神经网络与条件随机算法料进行训练获得所述预设模型。
6.如权利要求5所述的地址信息解析方法,其特征在于,所述利用自然语言处理技术提取所述样本集合中的地址数据的初级特征并将符合一定条件的初级特征确定为目标特征,对所述目标特征进行向量化得到样本特征向量包括:
计算提取的每一初级特征在地址文本中出现的频率;
根据所述频率计算所述每一初级特征与每个行政区划级别的相关度作为特征权重;
选择所述相关度和/或所述频率满足预设条件的所述初级特征作为所述目标特征;
计算选择出的每个目标特征与所述每个政区划级别的相关度并将每个目标特征的相关度平均值作为每个目标特征的权值并根据所述权值构建加权矩阵;
根据所述加权矩阵对所述目标特征进行向量化得到样本特征向量。
7.如权利要求1-4任一项所述的地址信息解析方法,其特征在于,所述方法还包括:
所述预测模型设于spark计算引擎,所述地理编码结果与原始数据关联存储在elasticsearch搜索引擎。
8.一种数据获取方法,其特征在于,所述方法包括
接收候选地址信息;
对所述候选地址信息按照如权利要求7所述的方法进行解析获得解析后的候选地理编码数据;
根据所述候选地理编码数据和预设地理范围,在预存的地理编码结果与原始数据的关联表中进行计算,获取预设地理范围内的地理编码结果和对应的原始数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁云计算有限公司,未经苏宁云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910684395.4/1.html,转载请声明来源钻瓜专利网。





