[发明专利]地址标准化处理方法、装置、电子设备及可读存储介质有效
| 申请号: | 202110916443.5 | 申请日: | 2021-08-10 |
| 公开(公告)号: | CN113591459B | 公开(公告)日: | 2023-09-15 |
| 发明(设计)人: | 张俊文;夏丽娟;王亦斐;沈贤俊;李星涵;陈怡玮;黎建辉;陈施恩;夏俊伟;廖晓格 | 申请(专利权)人: | 平安银行股份有限公司 |
| 主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 地址 标准化 处理 方法 装置 电子设备 可读 存储 介质 | ||
本发明涉及数据处理,揭露一种地址标准化处理方法,包括:对第一样本集中的样本执行混合掩码处理,得到第二样本集;将第二样本集输入预先确定的初始语言模型进行第一训练,得到第一语言模型;将第三样本集输入第一语言模型进行第二训练,得到第二语言模型;将待处理地址输入第二语言模型,得到标准化地址。本发明还提供一种地址标准化处理装置、电子设备及可读存储介质。本发明实现了准确地对地址进行标准化处理。
技术领域
本发明涉及数据处理领域,尤其涉及一种地址标准化处理方法、装置、电子设备及可读存储介质。
背景技术
地址在现代社会的应用非常广泛,例如,物流服务、导航服务、房产/商圈的投资研究等,然而,由于地址的书写表达存在不规范性,不同的人对同一地址的书写变化多样,如何对地址进行标准化处理是当前的关注要点。
当前,通常采用通用语料对语言模型预训练,将预训练得到的模型迁移到下游地址任务训练得到训练好的语言模型,使用训练好的语言模型对地址进行标准化处理。然而由于采用通用语料预训练得到的模型无法准确、深入学习到地址文本的不同粒度的语义特征和行政隶属关系特征,导致训练好的语言模型无法准确地对地址进行标准化处理(地址纠错处理及地址补全处理)。因此,亟需一种地址标准化处理方法,以准确地对地址进行标准化处理。
发明内容
鉴于以上内容,有必要提供一种地址标准化处理方法,旨在准确地对地址进行标准化处理。
本发明提供的地址标准化处理方法,包括:
从第一数据库中抽取第一数量的地址样本作为第一样本集,对所述第一样本集中的样本执行混合掩码处理,得到第二样本集;
将所述第二样本集输入预先确定的初始语言模型进行第一训练,得到第一语言模型;
从第二数据库中抽取第二数量的携带标注信息的地址样本作为第三样本集,将所述第三样本集输入所述第一语言模型进行第二训练,得到第二语言模型;
解析用户基于客户端发出的地址标准化处理请求,获取所述地址标准化处理请求携带的待处理地址,将所述待处理地址输入所述第二语言模型,得到标准化地址。
可选的,所述对所述第一样本集中的样本执行混合掩码处理,得到第二样本集,包括:
将所述第一样本集中的每个样本输入地址实体识别模型,得到地址实体识别结果;
基于所述地址实体识别结果将所述第一样本集中的每个样本拆分为实体区域及非实体区域;
按照预设比例将所述第一样本集拆分为第四样本集及第五样本集;
对所述第四样本集中每个样本的实体区域执行同义词掩码处理,得到第六样本集;
对所述第五样本集中每个样本的非实体区域执行掩盖符掩码处理,得到第七样本集;
对所述第六样本集及所述第七样本集中的样本执行标注处理,合并标注处理后的第六样本集及第七样本集,得到第二样本集。
可选的,所述对所述第四样本集中每个样本的实体区域执行同义词掩码处理,包括:
从第三数据库中获取预先确定的替换比例与行政区域层级之间的第一映射关系;
基于所述第一映射关系,将所述第四样本集中对应替换比例的样本的实体区域中对应行政区域层级的地址实体用同一行政区域层级的其它地址实体替换。
可选的,所述对所述第五样本集中每个样本的非实体区域执行掩盖符掩码处理,包括:
从第四数据库中获取预先确定的替换比例与掩码位数之间的第二映射关系;
基于所述第二映射关系,将所述第五样本集中对应替换比例的样本的非实体区域中对应位数的字符用掩盖符替换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安银行股份有限公司,未经平安银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110916443.5/2.html,转载请声明来源钻瓜专利网。





