[发明专利]实体关系数据的生成方法、装置、设备及存储介质在审

专利信息
申请号: 201810928930.1 申请日: 2018-08-15
公开(公告)号: CN109325201A 公开(公告)日: 2019-02-12
发明(设计)人: 黄昉;李双婕;于昺洋;史亚冰;梁海金;张扬;朱勇 申请(专利权)人: 北京百度网讯科技有限公司
主分类号: G06F16/958 分类号: G06F16/958
代理公司: 北京品源专利代理有限公司 11332 代理人: 孟金喆
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 实体关系 网页源码 存储介质 目标网页 人力成本 网页
【说明书】:

发明实施例公开了一种实体关系数据的生成方法、装置、设备及存储介质。所述方法包括:获取与目标网页对应的网页源码数据;在所述网页源码数据中,识别出至少一个键值块,其中,所述键值块中包括至少一个键值对;在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值;根据所述键值块以及与所述键值块对应的主体值,生成与所述目标网页对应的实体关系数据。通过本发明的技术方案,能够提高网页通用性,降低人力成本,提高实体关系数据的产出量。

技术领域

本发明实施例涉及信息处理技术,尤其涉及一种实体关系数据的生成方法、装置、设备及存储介质。

背景技术

实体关系数据,也被称作SPO三元组数据,是指实体pair(主体S-客体O pair)与他们之间的关系(P)构成的三元组。实体关系是知识图谱的关键组成部分,从知识图谱构建角度来看,实体关系挖掘可以丰富图谱中的关系知识,构建实体之间的关联关系;从产品应用角度,实体关系一方面可以直接满足用户对于知识类的搜索需求,例如搜索某个明星的妻子“×××妻子”时,可以通过实体关系数据直接给出答案,另外一方面还可以基于实体关系为用户推荐关联的知识,为用户提供信息扩展的阅读体验,例如搜索某个名人的名字“××”时,可以通过实体关系为用户推荐该名人相关的其他实体。

现有技术中,实体关系挖掘主要通过以下两种方式来进行:

其中,第一种方式是,针对百科类网站进行抽取。根据百科类网站有良好的结构,数据十分规范的特点,直接从百科类网站的信息盒或者属性表格(百科类网站的实体下用于描述实体属性的一种网页结构)中抽取实体关系。利用百科类网站结构简单稳定的特点,从待抽取的百科类站点中采样并标注几个典型页面,对这些页面通过模式学习算法自动构建出一个或多个以类xpath表示的模式,然后将其应用在该站点的其他详细页面中从而实现抽取。

第二种方式是,针对网站生成包装器(模板)的抽取方法。通过分析需要抽取的网站的结构和HTML标签等信息,构造对应的包装器,使用这个包装器对该网页进行实体关系抽取。对于一般的有规律的页面,包装器通常依靠人工使用正则表达式的方式写出xpath和CSS选择器表达式来提取网页中的元素。

现有技术的缺陷在于:第一种方式可以抽取的数据量少,且数据时效性不强;第二种方式的人工成本很高且通用性不强。

发明内容

本发明实施例提供一种实体关系数据的生成方法、装置、设备及存储介质,以实现提高网页通用性,降低人力成本,提高实体关系数据的产出量。

第一方面,本发明实施例提供了一种实体关系数据的生成方法,包括:

获取与目标网页对应的网页源码数据;

在所述网页源码数据中,识别出至少一个键值块,其中,所述键值块中包括至少一个键值对;

在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值;

根据所述键值块以及与所述键值块对应的主体值,生成与所述目标网页对应的实体关系数据。

第二方面,本发明实施例还提供了一种实体关系数据的生成装置,该装置包括:

源码获取模块,用于获取与目标网页对应的网页源码数据;

键值块识别模块,用于在所述网页源码数据中,识别出至少一个键值块,其中,所述键值块中包括至少一个键值对;

主体值识别模块,用于在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值;

数据生成模块,用于根据所述键值块以及与所述键值块对应的主体值,生成与所述目标网页对应的实体关系数据。

第三方面,本发明实施例还提供了一种计算机设备,该设备包括:

一个或多个处理器;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810928930.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top