[发明专利]一种基于兴趣点知识图谱预训练的地址匹配算法有效
| 申请号: | 202010197064.0 | 申请日: | 2020-03-19 |
| 公开(公告)号: | CN111444298B | 公开(公告)日: | 2022-10-14 |
| 发明(设计)人: | 陈华钧;叶志权 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F16/29 | 分类号: | G06F16/29;G06F16/33;G06F16/36 |
| 代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
| 地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 兴趣 知识 图谱 训练 地址 匹配 算法 | ||
1.一种基于兴趣点知识图谱预训练的地址匹配方法,其特征在于,包括,
(1)获取经过数字化处理的、能在网络环境下运行的兴趣点地址,将兴趣点地址区分出不同粒度的行政区域,得到标注后的兴趣点地址;
(2)将标注后的兴趣点地址随机遮盖部分行政区域输入到语言模型中,输出预测后的兴趣点地址,利用兴趣点地址与预测后的兴趣点地址计算损失函数,多次迭代后,得到输出准确的兴趣点地址的语言模型,包括以下步骤:
(2.1)将兴趣点地址文本输入到语言模型的向量编码层,经计算得到兴趣点地址中每个字符的向量表示;
所述的兴趣点地址文本为式(1)所示:
C={c0,c1,…,cn-1} (1)
其中,C为兴趣点地址文本;n为兴趣点地址文本的长;
所述的兴趣点地址中每个字符的向量表示为式(2)所示:
h0=CWe+Wp (2)
其中,h0为兴趣点地址中每个字符的向量表示;We为词表矩阵;Wp为位置向量矩阵;h0∈Rn×d为输入字符的向量表示;d为向量维度;
(2.2)将兴趣点地址中每个字符的向量表示作为transformer编码层的输入,得到兴趣点地址训练样本的特征向量;
所述的兴趣点地址训练样本的特征向量的计算公式为式(3)所示:
hl=transformer(hl),l∈[1,6] (3)
其中,hl为兴趣点地址训练样本的特征向量;l为transformer编码层的堆叠层数;
(2.3)将兴趣点地址训练样本的特征向量作为全连接层的输入,得到兴趣点地址的概率矩阵;
所述的兴趣点地址的概率矩阵的计算公式为式(4)所示:
pi=softmax(hlW) (4)
其中,W为全连接层的矩阵;pi∈Rn×V为概率矩阵;V为词表大小;
(2.4)利用兴趣点地址与预测后的兴趣点地址计算损失函数,多次迭代后,得到输出准确的兴趣点地址的语言模型;
所述的损失函数的计算公式为式(5)所示:
其中yi是被遮盖的词,pi是对应i位置上输出的概率分布;
(3)将步骤(2)得到的语言模型后面接上全连接层,使用标注后的地址匹配任务数据集对模型和全连接层进行整体参数微调,得到微调后的语言模型和全连接层,包括以下步骤:
(3.1)将地址匹配任务数据集中的地址文本输入语言模型中,得到地址文本的输出向量;
所述的地址文本为式(6)所示:
其中,Ci为地址文本;分别为地址文本的正负样本,即与Ci匹配,则为随机采样的负样本;
所述的地址文本的输出向量的计算公式为式(7)所示:
其中,为地址文本的输出向量;hi∈Rd;
(3.2)利用合页损失函数计算地址文本输出向量中hi与之间的相似度和hi与之间的相似度的损失值,迭代求解直至损失值收敛,得到微调后的语言模型和全连接层;所述的损失值的计算公式为式(8)所示:
(4)将标注后的待预测的原始兴趣点地址输入步骤(3)得到微调后的语言模型和全连接层,得到待预测兴趣点的预测地址,将待预测的原始兴趣点地址与待预测兴趣点的预测地址进行相似度计算,完成地址匹配,包括以下步骤:
得到待预测兴趣点的预测地址的计算公式为式(9)所示:
其中,分别为遮盖不同的待预测兴趣点地址;为待预测兴趣点地址的实际地址;为待预测兴趣点地址的实际地址;
相似度计算的公式为式(10)所示:
根据simi的取值判断是否匹配,判断公式具体为式(11)所示:
其中,当yi=1时,微调后的语言模型计算出的待预测兴趣点的实际地址与真实地址匹配;当yi=0时,微调后的语言模型计算出的待预测兴趣点的实际地址与真实地址不匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010197064.0/1.html,转载请声明来源钻瓜专利网。





