[发明专利]实体关系数据的生成方法、装置、设备及存储介质在审
申请号: | 201810928930.1 | 申请日: | 2018-08-15 |
公开(公告)号: | CN109325201A | 公开(公告)日: | 2019-02-12 |
发明(设计)人: | 黄昉;李双婕;于昺洋;史亚冰;梁海金;张扬;朱勇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体关系 网页源码 存储介质 目标网页 人力成本 网页 | ||
本发明实施例公开了一种实体关系数据的生成方法、装置、设备及存储介质。所述方法包括:获取与目标网页对应的网页源码数据;在所述网页源码数据中,识别出至少一个键值块,其中,所述键值块中包括至少一个键值对;在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值;根据所述键值块以及与所述键值块对应的主体值,生成与所述目标网页对应的实体关系数据。通过本发明的技术方案,能够提高网页通用性,降低人力成本,提高实体关系数据的产出量。
技术领域
本发明实施例涉及信息处理技术,尤其涉及一种实体关系数据的生成方法、装置、设备及存储介质。
背景技术
实体关系数据,也被称作SPO三元组数据,是指实体pair(主体S-客体O pair)与他们之间的关系(P)构成的三元组。实体关系是知识图谱的关键组成部分,从知识图谱构建角度来看,实体关系挖掘可以丰富图谱中的关系知识,构建实体之间的关联关系;从产品应用角度,实体关系一方面可以直接满足用户对于知识类的搜索需求,例如搜索某个明星的妻子“×××妻子”时,可以通过实体关系数据直接给出答案,另外一方面还可以基于实体关系为用户推荐关联的知识,为用户提供信息扩展的阅读体验,例如搜索某个名人的名字“××”时,可以通过实体关系为用户推荐该名人相关的其他实体。
现有技术中,实体关系挖掘主要通过以下两种方式来进行:
其中,第一种方式是,针对百科类网站进行抽取。根据百科类网站有良好的结构,数据十分规范的特点,直接从百科类网站的信息盒或者属性表格(百科类网站的实体下用于描述实体属性的一种网页结构)中抽取实体关系。利用百科类网站结构简单稳定的特点,从待抽取的百科类站点中采样并标注几个典型页面,对这些页面通过模式学习算法自动构建出一个或多个以类xpath表示的模式,然后将其应用在该站点的其他详细页面中从而实现抽取。
第二种方式是,针对网站生成包装器(模板)的抽取方法。通过分析需要抽取的网站的结构和HTML标签等信息,构造对应的包装器,使用这个包装器对该网页进行实体关系抽取。对于一般的有规律的页面,包装器通常依靠人工使用正则表达式的方式写出xpath和CSS选择器表达式来提取网页中的元素。
现有技术的缺陷在于:第一种方式可以抽取的数据量少,且数据时效性不强;第二种方式的人工成本很高且通用性不强。
发明内容
本发明实施例提供一种实体关系数据的生成方法、装置、设备及存储介质,以实现提高网页通用性,降低人力成本,提高实体关系数据的产出量。
第一方面,本发明实施例提供了一种实体关系数据的生成方法,包括:
获取与目标网页对应的网页源码数据;
在所述网页源码数据中,识别出至少一个键值块,其中,所述键值块中包括至少一个键值对;
在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值;
根据所述键值块以及与所述键值块对应的主体值,生成与所述目标网页对应的实体关系数据。
第二方面,本发明实施例还提供了一种实体关系数据的生成装置,该装置包括:
源码获取模块,用于获取与目标网页对应的网页源码数据;
键值块识别模块,用于在所述网页源码数据中,识别出至少一个键值块,其中,所述键值块中包括至少一个键值对;
主体值识别模块,用于在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值;
数据生成模块,用于根据所述键值块以及与所述键值块对应的主体值,生成与所述目标网页对应的实体关系数据。
第三方面,本发明实施例还提供了一种计算机设备,该设备包括:
一个或多个处理器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810928930.1/2.html,转载请声明来源钻瓜专利网。