[发明专利]实体的地址确定方法、装置、设备及存储介质有效
申请号: | 202010680179.5 | 申请日: | 2020-07-15 |
公开(公告)号: | CN111901450B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 袁琳;李直旭;刘庆升 | 申请(专利权)人: | 安徽淘云科技股份有限公司 |
主分类号: | H04L45/745 | 分类号: | H04L45/745 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 付丽 |
地址: | 230088 安徽省合肥市中国(安徽)自由贸易试验区*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 地址 确定 方法 装置 设备 存储 介质 | ||
本申请公开了一种实体的地址确定方法、装置、设备及存储介质,本申请首先获取到待确定地址的目标实体的各候选地址,候选地址包括目标实体的网页中包含的地址类型实体,以及由目标实体的网页链接,通过直接或间接跳转关系可以跳转至的地址类型实体,由此可见,本申请通过网页链接可以挖掘出显示及隐式的与目标实体对应的地址类型实体作为候选地址,在此基础上,基于各类型实体对应网页链接间的跳转关系,确定各类型实体间的关联程度,并基于关联程度确定每一候选地址与目标实体的匹配度,该匹配度能够衡量候选地址与目标实体的匹配程度,进而可以基于匹配度从各候选地址中确定目标实体的匹配地址。
技术领域
本申请涉及互联网技术领域,更具体的说,是涉及一种实体的地址确定方法、装置、设备及存储介质。
背景技术
随着信息的高速发展以及在线知识库在人们生活中起到愈加重要的作用,互联网已成为国内人们获取信息的主要方式,然而互联网页面中的信息较为广泛且分散,人们需要通过阅读甚至加上简单推理才能够获取到所需的信息。
对于某些类型的实体,如景点类型的实体,其在实体的页面中可能不包含该实体的地址信息,或包含的地址信息不够完整全面。据观察数据统计,60%的景点类型实体存在着地址不完整或者不够直观的问题。
地址补全是一项研究价值以及应用价值都颇高的任务,在物流业、电商业、金融业等等都具有非常高的应用价值,因此,有必要提供一种实体的地址确定方案,以对实体的地址进行完善补充。
发明内容
鉴于上述问题,提出了本申请以便提供一种实体的地址确定方法、装置、设备及存储介质,以解决现有网页中实体地址不完整的问题。具体方案如下:
一种实体的地址确定方法,包括:
获取所述目标实体的各候选地址,所述候选地址包括所述目标实体的网页中包含的地址类型实体,以及由所述目标实体的网页链接,通过直接或间接跳转关系可以跳转至的地址类型实体;
基于各类型实体对应网页链接间的跳转关系,确定各类型实体间的关联程度;
基于各类型实体间的关联程度,确定每一所述候选地址与所述目标实体的匹配度;
基于所述匹配度,从各所述候选地址中确定所述目标实体的匹配地址。
优选地,所述获取所述目标实体的各候选地址,包括:
获取配置的有向图,所述有向图中结点代表各类型实体,由一个实体指向另一个实体的有向边表示,被指向的实体存在于有向边的起点对应实体的网页中;
在所述有向图中,以所述目标实体为起点,沿有向边方向查找与起点直接或间接相连的地址类型实体,将查找到的各地址类型实体作为所述目标实体的候选地址。
优选地,所述基于各类型实体对应网页链接间的跳转关系,确定各类型实体间的关联程度,包括:
获取所述有向图的邻接矩阵,邻接矩阵中各元素的值表示元素对应的两个实体在有向图中是否通过有向边连接;
将所述邻接矩阵自乘n次,得到新的邻接矩阵,所述新的邻接矩阵中各元素的值表示元素对应的两个实体间的关联程度。
优选地,所述基于各类型实体间的关联程度,确定每一所述候选地址与所述目标实体的匹配度,包括:
确定所述有向图中,由所述目标实体至每一候选地址对应地址类型实体的路径,得到每一候选地址对应的路径;
针对每一候选地址,基于对应的路径上各有向边连接的两个实体间的关联程度,确定所述候选地址与所述目标实体的匹配度。
优选地,所述针对每一候选地址,基于对应的路径上各有向边连接的两个实体间的关联程度,确定所述候选地址与所述目标实体的匹配度,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽淘云科技股份有限公司,未经安徽淘云科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010680179.5/2.html,转载请声明来源钻瓜专利网。