[发明专利]基于AI的房屋地址匹配方法、存储介质及设备有效
申请号: | 202111128853.X | 申请日: | 2021-09-26 |
公开(公告)号: | CN113869052B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 叶建生;谢运涛;巫飞;郑向东;张泽蔚;蒋晓敏 | 申请(专利权)人: | 杭州中房信息科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/247;G06F16/33;G06F18/214 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ai 房屋 地址 匹配 方法 存储 介质 设备 | ||
1.一种基于AI的房屋地址匹配方法,用于从经过规范化预处理的待搜索地址数据集中匹配得到与目标房屋地址同义的房屋地址数据,其特征在于,包括:
S1、以第一房屋地址数据集作为训练数据,利用无监督相似度匹配算法对第一预训练模型BERT进行微调,得到编码模型;
S2、利用S1中的编码模型对目标房屋地址和待搜索地址数据集中的每一条待匹配地址分别进行编码,将每一条地址文本转换为高维向量;
S3、计算S2得到的目标房屋地址的高维向量与每一条待匹配地址的高维向量之间的相似度,并召回与目标房屋地址相似度最高的前K条待匹配地址;
S4、利用预先标注好同义地址对的第二房屋地址数据集作为训练数据,对基于第二预训练模型BERT的二分类文本模型进行微调,得到地址配对模型;
S5、利用地址配对模型对目标房屋地址与S3中召回的每一条待匹配地址是否属于同义地址进行分类,将与目标房屋地址同义的待匹配地址作为待验证地址;
S6、利用预先标注好不同层级实体的第三房屋地址数据集作为训练数据,对基于第三预训练模型BERT的命名实体识别模型进行微调,训练得到能够从地址文本中提取不同层级实体的地址实体提取模型;
S7、利用地址实体提取模型从目标房屋地址和每一条待验证地址中分别识别出不同层级的地址实体,然后对每一层级的地址实体进行二次验证,若待验证地址中每一层级的地址实体均与目标房屋地址对应层级的地址实体一致,才将待验证地址作为与目标房屋地址同义的配对地址。
2.如权利要求1所述的基于AI的房屋地址匹配方法,其特征在于,所述的规范化预处理包括对地址文本进行空格和非汉字非数字字符的去除、全角半角一致性转换和地址实体别名一致性替换。
3.如权利要求1所述的基于AI的房屋地址匹配方法,其特征在于,所述的无监督相似度匹配算法为SIMCSE算法。
4.如权利要求1所述的基于AI的房屋地址匹配方法,其特征在于,所述的S3中,基于HNSW算法进行相似度最高的前K条待匹配地址的召回。
5.如权利要求1所述的基于AI的房屋地址匹配方法,其特征在于,所述的地址文本中提取的不同层级的实体地址至少包括小区名、幢号、单元号和室号。
6.如权利要求1所述的基于AI的房屋地址匹配方法,其特征在于,所述的二分类文本模型由第二预训练模型BERT和Softmax层组成。
7.如权利要求1所述的基于AI的房屋地址匹配方法,其特征在于,所述的命名实体识别模型由第三预训练模型BERT和CRF层组成。
8.如权利要求1所述的基于AI的房屋地址匹配方法,其特征在于,所述的第二房屋地址数据集中包含一系列表示同一个地址但采用了不同文字表示方式的同义地址对,所有同义地址对均带有标注标签;所述的第三房屋地址数据集中包含一系列地址文本,且每一条地址文本中不同层级的地址实体均带有人工标注标签。
9.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,能实现如权利要求1~8任一所述的基于AI的房屋地址匹配方法。
10.一种基于AI的房屋地址匹配设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如权利要求1~8任一所述的基于AI的房屋地址匹配方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州中房信息科技有限公司,未经杭州中房信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111128853.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像坏点检测方法、系统及装置
- 下一篇:一种趋磁纳米马达及其制备方法