[发明专利]一种地址匹配方法及装置有效
| 申请号: | 202011442909.4 | 申请日: | 2020-12-08 |
| 公开(公告)号: | CN112559658B | 公开(公告)日: | 2022-12-30 |
| 发明(设计)人: | 陈欢欢;范祖宁 | 申请(专利权)人: | 中国科学技术大学 |
| 主分类号: | G06F16/29 | 分类号: | G06F16/29;G06F40/186 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李婷婷 |
| 地址: | 230026 安*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 地址 匹配 方法 装置 | ||
1.一种地址匹配方法,其特征在于,应用于预先训练好的地址匹配模型,方法包括:
接收待匹配地址;
确定所述待匹配地址的句子向量;
采用余弦距离分析方法确定所述待匹配地址的句子向量与模板地址对应的句子向量的相似度,其中,所述模板地址属于所述地址匹配模型;所述待匹配地址和所述模板地址的句子向量均包括对应行政区地址的第一句子向量和对应具体地址的第二句子向量;
所述采用余弦距离分析方法确定所述待匹配地址的句子向量与模板地址对应的句子向量的相似度,包括:采用余弦距离法分析法分别确定所述待匹配地址的第一句子向量和所述模板地址的第一句子向量的第一相似度,以及所述待匹配地址的第二句子向量和所述模板地址的第二句子向量的第二相似度;
基于预设规则和预设阈值确定所述待匹配地址与所述模板地址是否匹配;其中,所述预设阈值包括第一阈值、第二阈值和第三阈值,所述第一阈值大于所述第二阈值;
所述基于预设规则和预设阈值确定所述待匹配地址与所述模板地址是否匹配,包括:若所述第二相似度大于所述第一阈值,确定所述待匹配地址与所述模板地址匹配;若所述第二相似度大于所述第二阈值并且小于或等于所述第一阈值,所述第一相似度大于所述第三阈值,确定所述待匹配地址与所述模板地址匹配;若所述第二相似度小于或等于所述第二阈值,确定所述待匹配地址与所述模板地址不匹配。
2.根据权利要求1所述的地址匹配方法,其特征在于,所述地址匹配模型的训练过程包括:
对训练数据进行关键词提取划分,得到关键词划分数据,所述训练数据为模板地址,所述关键词为表征行政区域的词汇;
基于所述关键词划分数据构建地址匹配模型。
3.根据权利要求2所述的地址匹配方法,其特征在于,所述基于所述关键词划分数据构建地址匹配模型,包括:
对所述模板地址的关键词划分数据进行分词处理,得到词语集合;
基于所述词语集合训练得到对应的词向量集合;
采用TF-IDF模型对所述词向量集合中包含的词向量进行加权平均,得到所述关键词划分数据的句子向量。
4.根据权利要求3所述的地址匹配方法,其特征在于,所述确定所述待匹配地址的句子向量的过程,与所述地址匹配模型的训练过程中确定所述模板地址的句子向量的过程相同。
5.根据权利要求3所述的地址匹配方法,其特征在于,所述对所述模板地址的关键词划分数据进行分词处理,得到词语集合,包括:
采用基于词典的分词算法或基于统计学习的分词算法对所述模板地址的关键词划分数据。
6.根据权利要求3所述的地址匹配方法,其特征在于,所述基于所述词语集合训练得到对应的词向量集合,包括:
基于所述词语集合,采用CBOW模型或Skip-Gram模型训练得到对应的词向量集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011442909.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种硬岩隧道掘进机
- 下一篇:一种抗菌防臭被子的制备方法





