[发明专利]相似地址筛选方法、装置、计算设备以及存储介质在审
申请号: | 202110882531.8 | 申请日: | 2021-08-02 |
公开(公告)号: | CN113626730A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 何萧峰;符国辉;何保健;杨晨 | 申请(专利权)人: | 同盾科技有限公司;同盾控股有限公司 |
主分类号: | G06F16/9537 | 分类号: | G06F16/9537;G06F16/29;G06K9/62 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 311100 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相似 地址 筛选 方法 装置 计算 设备 以及 存储 介质 | ||
本发明实施例提供了一种相似地址筛选方法、装置、计算设备及存储介质,该方法包括:获取多个地址数据,并将该多个地址数据按照预设规则进行分区,得到多个地址分区;对于每一个地址分区,基于地址分区中的地址数据,生成地址分区对应的第一地址向量矩阵;将第一地址向量矩阵进行切分,得到多个第一目标向量矩阵;基于多个第一目标向量矩阵,确定地址分区中的各个地址数据之间的相似度;基于相似度,筛选出目标相似地址数据。这样,通过对地址数据进行分区得到多个地址分区,同时对每个地址分区中的地址向量矩阵进行切分计算,实现了对大量地址的批处理,能够批量筛选出相似度高的地址,对资源占用较小,计算效率较高,节省了运行成本。
技术领域
本发明涉及数据处理领域,特别是涉及一种相似地址筛选方法、装置、计算设备以及存储介质。
背景技术
随着互联网的飞速发展,快递物流等行业对于地址数据的应用越来越广泛。在海量地址数据的应用过程中,经常需要计算地址之间的相似度以确定地址数据的准确性。
目前,传统的地址相似度大多基于某两个特定地址之间进行计算,无法实现对相似地址的批处理和批量筛选,存在计算效率较低、运行成本较大、占用资源较多的问题。
发明内容
本发明实施例提供一种相似地址筛选方法、装置、计算设备以及存储介质,以解决现有技术中地址相似度计算效率较低、运行成本较大、占用资源较多的问题。
为了解决上述问题,本发明实施例是这样实现的:
第一方面,本发明实施例公开了一种相似地址筛选方法,包括:
获取多个地址数据,并将所述地址数据按照预设规则进行分区,得到多个地址分区;
对于每一个地址分区,基于所述地址分区中的地址数据,生成所述地址分区对应的第一地址向量矩阵;
将所述第一地址向量矩阵进行切分,得到多个第一目标向量矩阵;
基于所述多个第一目标向量矩阵,确定所述地址分区中各个地址数据之间的相似度;
基于所述相似度,筛选出目标相似地址数据。
可选的,所述将所述地址数据按照预设规则进行分区,包括:
将所述地址数据进行切分,得到所述地址数据的行政区字段和具体地址字段;
依据所述行政区字段,将所述行政区字段相同的地址数据划分至同一地址分区。
可选的,所述基于所述地址分区中的地址数据,生成所述地址分区对应的第一地址向量矩阵,包括:
在所述地址数据中存在高频字符的情况下,抽取所述地址数据中的高频字符作为目标地址数据;所述高频字符为在所述地址分区中出现频率高于预设频率阈值的地址字符;
将所述目标地址数据添加至目标词库中;
通过预设向量生成模型,生成所述目标词库中的每个目标地址数据对应的地址向量,得到所述第一地址向量矩阵。
可选的,所述确定所述地址分区中各个地址数据之间的相似度,包括:
复制所述第一地址向量矩阵,得到第二地址向量矩阵;
将所述第二地址向量矩阵进行切分,得到多个第二目标向量矩阵;所述第二目标向量矩阵与所述第一目标向量矩阵的行列数相同;
对于任意一个所述第一目标向量矩阵与任意一个所述第二目标向量矩阵,确定所述第一目标向量矩阵与所述第二目标向量矩阵的计算结果在结果矩阵中的位置;
若所述计算结果在结果矩阵的上三角位置,则将所述第一目标向量矩阵与所述第二目标向量矩阵输入预设相似度模型进行计算,得到结果子矩阵;所述上三角位置为结果矩阵中行数不大于列数的位置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同盾科技有限公司;同盾控股有限公司,未经同盾科技有限公司;同盾控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110882531.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:复合软管片材成型工艺及复合软管结构
- 下一篇:一种压力自适应充油舵机