[发明专利]实体的地址确定方法、装置、设备及存储介质有效
申请号: | 202010680179.5 | 申请日: | 2020-07-15 |
公开(公告)号: | CN111901450B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 袁琳;李直旭;刘庆升 | 申请(专利权)人: | 安徽淘云科技股份有限公司 |
主分类号: | H04L45/745 | 分类号: | H04L45/745 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 付丽 |
地址: | 230088 安徽省合肥市中国(安徽)自由贸易试验区*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 地址 确定 方法 装置 设备 存储 介质 | ||
1.一种实体的地址确定方法,其特征在于,包括:
获取目标实体的各候选地址,所述候选地址包括所述目标实体的网页中包含的地址类型实体,以及由所述目标实体的网页链接,通过直接或间接跳转关系可以跳转至的地址类型实体;所述地址类型实体为对所述目标实体的地址的介绍;
基于各类型实体对应网页链接间的跳转关系,确定各类型实体间的关联程度;
基于各类型实体间的关联程度,确定每一所述候选地址与所述目标实体的匹配度;
基于所述匹配度,从各所述候选地址中确定所述目标实体的匹配地址。
2.根据权利要求1所述的方法,其特征在于,所述获取所述目标实体的各候选地址,包括:
获取配置的有向图,所述有向图中结点代表各类型实体,由一个实体指向另一个实体的有向边表示,被指向的实体存在于有向边的起点对应实体的网页中;
在所述有向图中,以所述目标实体为起点,沿有向边方向查找与起点直接或间接相连的地址类型实体,将查找到的各地址类型实体作为所述目标实体的候选地址。
3.根据权利要求2所述的方法,其特征在于,所述基于各类型实体对应网页链接间的跳转关系,确定各类型实体间的关联程度,包括:
获取所述有向图的邻接矩阵,邻接矩阵中各元素的值表示元素对应的两个实体在有向图中是否通过有向边连接;
将所述邻接矩阵自乘n次,得到新的邻接矩阵,所述新的邻接矩阵中各元素的值表示元素对应的两个实体间的关联程度。
4.根据权利要求2所述的方法,其特征在于,所述基于各类型实体间的关联程度,确定每一所述候选地址与所述目标实体的匹配度,包括:
确定所述有向图中,由所述目标实体至每一候选地址对应地址类型实体的路径,得到每一候选地址对应的路径;
针对每一候选地址,基于对应的路径上各有向边连接的两个实体间的关联程度,确定所述候选地址与所述目标实体的匹配度。
5.根据权利要求4所述的方法,其特征在于,所述针对每一候选地址,基于对应的路径上各有向边连接的两个实体间的关联程度,确定所述候选地址与所述目标实体的匹配度,包括:
针对每一候选地址,将对应的路径上各有向边连接的两个实体间的关联程度累加,累加结果作为所述候选地址与所述目标实体的匹配度。
6.根据权利要求1所述的方法,其特征在于,还包括:
获取所述目标实体的网页中的文本信息;
创建所述目标实体的跳转向量,所述跳转向量包含与每个设定的地址类别标签一一对应的元素位,元素位的元素值用于表示所述目标实体的网页通过直接或间接形式,跳转至所述元素位对应地址类别标签所表示的地址类型实体的跳转次数;
基于所述文本信息及所述跳转向量,利用预训练的地址分类模型,在设定的地址类别标签中确定所述目标实体的分类地址;
根据所述匹配地址,以及所述分类地址,确定所述目标实体的最终地址。
7.根据权利要求6所述的方法,其特征在于,所述地址分类模型的训练过程,包括:
获取标注有地址类别标签的训练实体的训练文本信息,以及,训练实体的跳转向量;
利用地址分类模型对训练文本信息进行文本特征提取,得到提取的文本特征;
利用地址分类模型,将文本特征与所述跳转向量拼接,得到拼接特征;
利用地址分类模型,基于拼接特征确定训练实体的预测地址类别;
以预测地址类别趋近于标注的地址类别标签为训练目标,训练地址分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽淘云科技股份有限公司,未经安徽淘云科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010680179.5/1.html,转载请声明来源钻瓜专利网。