[发明专利]一种基于兴趣点知识图谱预训练的地址匹配算法有效
申请号: | 202010197064.0 | 申请日: | 2020-03-19 |
公开(公告)号: | CN111444298B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 陈华钧;叶志权 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/29 | 分类号: | G06F16/29;G06F16/33;G06F16/36 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 兴趣 知识 图谱 训练 地址 匹配 算法 | ||
本发明公开了一种基于兴趣点知识图谱预训练的地址匹配算法,包括:获取兴趣点地址后区分出不同粒度的行政区域,得到标注后的兴趣点地址;将标注后的兴趣点地址随机遮盖部分行政区域输入到语言模型中,输出预测后的兴趣点地址,利用兴趣点地址与预测后的兴趣点地址计算损失函数,多次迭代后,得到输出准确的兴趣点地址的语言模型;将语言模型后面接上全连接层,使用标注后的地址匹配任务数据集对模型和全连接层进行整体参数微调,得到微调后的语言模型和全连接层;将标注后的待预测的原始兴趣点地址输入微调后的语言模型和全连接层,得到待预测兴趣点的预测地址,将待预测的原始兴趣点地址与待预测兴趣点的预测地址进行相似度计算,完成地址匹配。
技术领域
本发明涉及知识图谱和自然语言处理领域,具体涉及一种基于兴趣点知识图谱预训练的地址匹配算法。
背景技术
传统网络训练模型中自然语言处理任务需要大量的标注数据,这些数据的标注需要耗费大量的人力,然而即使获得了大量的标注数据,模型的训练也很容易陷入过拟合的困境,即缺少泛化能力。
文本的语义匹配指的是判断两段自然语言是否表达了同样的意思,传统的词袋模型的问题在于无法很好地处理自然语言的歧义性,同样的意思存在多种称谓和表述,而相同的表述在不同的语境下又可能存在多种意思,经典的语义匹配模型有传统的基于词袋模型的TF-IDF,BM25算法,以及基于深度学习的DSSM、匹配金字塔(MatchPyramid)等模型。
地址作为一种特定领域的自然语言,表述的是地理位置上某一地点的名称,现实生活中同一目的地的地址名称通常存在多种写法,通常是由于地址的不完整性、独特性和别名等多种原因造成。地址匹配的目的是判断两地址文本是否指向同一目的地,其本质上是一种文本语义匹配问题。由于地址的表述存在的差异性以及地理信息的复杂性,基于传统词袋模型的字符精确匹配无法获得很好的效果;而深度学习模型存在的问题在于,需要大量的训练语料,同时容易存在泛化性能差等特点。
因此,开发一种有效的语言预训练模型,利用互联网上海量的无监督语料,通过预训练模型可以学习到语言的特征,得到每个词的向量表示,然后将向量表示输入给下游任务进行参数的微调;这种预训练在自然语言推理、文本匹配、命名实体识别以及问答系统等许多自然语言处理任务上都取得了很好的效果。这种预训练模型充分利用了海量的无监督语料,有效地减少下游任务的标注数据量,同时提高下游任务模型的泛化能力和效果。
其中,地理信息系统中的某个兴趣点(兴趣点Int ofInterest,简称“兴趣点”)可以是商铺、建筑物、公交站等,其中,兴趣点知识图谱是指包含某一区域的兴趣点的集合,知识图谱中包含了海量的地址文本信息,如何利用知识图谱中海量的地址文本,来增强有监督的地址匹配任务的效果和泛化能力,是接下来研究的重点。
发明内容
本发明提供了一种基于兴趣点知识图谱预训练的地址匹配算法,该知识图谱构建方法可增强地址匹配算法的效果,减小有监督的标注样本,提高模型的泛化能力。
一种基于兴趣点知识图谱预训练的地址匹配算法,包括:
(1)获取经过数字化处理的、能在网络环境下运行的兴趣点地址,将兴趣点地址区分出不同粒度的行政区域;
所述的行政区域依次为省、市、区、路、社区、镇、村、名称和其他,分别用Prov,City,District,Road,Community,Town,Village,Name,O表示。
(2)随机遮盖部分行政区域,将遮盖后的兴趣点地址输入到语言模型中,输出预测后的兴趣点地址;利用兴趣点地址与预测后的兴趣点地址计算损失函数,多次迭代后,得到输出准确的兴趣点地址的语言模型。
所述的遮盖的行政区域的字数占兴趣点地址总字数的15%-25%。
所述的将遮盖后的兴趣点地址输入到语言模型中的具体过程为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010197064.0/2.html,转载请声明来源钻瓜专利网。