[发明专利]实体关系数据的生成方法、装置、设备及存储介质在审
申请号: | 201810928930.1 | 申请日: | 2018-08-15 |
公开(公告)号: | CN109325201A | 公开(公告)日: | 2019-02-12 |
发明(设计)人: | 黄昉;李双婕;于昺洋;史亚冰;梁海金;张扬;朱勇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体关系 网页源码 存储介质 目标网页 人力成本 网页 | ||
1.一种实体关系数据的生成方法,其特征在于,包括:
获取与目标网页对应的网页源码数据;
在所述网页源码数据中,识别出至少一个键值块,其中,所述键值块中包括至少一个键值对;
在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值;
根据所述键值块以及与所述键值块对应的主体值,生成与所述目标网页对应的实体关系数据。
2.根据权利要求1所述的方法,其特征在于,在所述网页源码数据中,识别出至少一个键值块,包括:
采用基础解析工具对所述网页源码数据进行数据解析,得到至少一个基础键值对加入键值对集合中;
对所述基础键值对进行键值对扩展,得到至少一个扩展键值对加入所述键值对集合中;
对所述键值对集合中包括的键值对进行合并处理,得到所述至少一个键值块。
3.根据权利要求2所述的方法,其特征在于,对所述基础键值对进行键值对扩展,得到至少一个扩展键值对加入所述键值对集合中,包括:
在所述网页源码数据中,获取与所述基础键值对匹配的基础节点的基础xpath,并查找xpath与所述基础xpath相同的扩展节点;获取与所述扩展节点对应的文本数据作为所述扩展键值对;和/或
在所述网页源码数据中,获取与所述基础键值对匹配的基础节点的基础html标签;根据所述基础html标签,确定至少一个扩展html标签,并在所述网页源码数据中,查找与所述扩展html标签匹配的扩展节点;获取与所述扩展节点对应的文本数据作为所述扩展键值对。
4.根据权利要求2所述的方法,其特征在于,对所述键值对集合中包括的键值对进行合并处理,得到所述至少一个键值块,包括:
定位所述键值对集中的键值对在所述目标网页中的页面位置;
将页面位置连续的至少两个键值对合并入同一个键值块中。
5.根据权利要求2所述的方法,其特征在于,在对所述键值对集合中包括的键值对进行合并处理,得到所述至少一个键值块之后,还包括:
按照键值对过滤规则,对所述至少一个键值块中包括的键值对进行过滤处理;
按照键值块过滤规则,对所述至少一个键值块进行过滤处理。
6.根据权利要求1所述的方法,其特征在于,在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值,包括:
如果确定当前处理的目标键值块为主键值块,且所述网页源码数据中包括满足第一标签条件的实体页节点,则按照实体页评分规则,判断所述目标网页是否为实体页;
若是,则将与所述实体页节点对应的文本数据作为所述目标键值块的主体值;
其中,所述主键值块为与所述网页源码数据对应的至少一个键值块中包含键值对数量最多的一个键值块。
7.根据权利要求1所述的方法,其特征在于,在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值,包括:
根据当前处理的目标键值块在所述目标网页中的页面位置,在所述网页源码数据中向前查找满足第二标签条件的强样式节点;
如果查找到所述强样式节点,且所述强样式节点的xpath同所述目标键值块对应的xpath不一致,则将与所述强样式节点对应的文本数据作为所述目标键值块的主体值。
8.根据权利要求1所述的方法,其特征在于,在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值,包括:
将当前处理的目标键值块中包括的键值对的键名,与设定的白名单进行匹配;
如果确定所述目标键值块中包括的目标键名与所述白名单匹配,则获取与所述目标键名对应的目标键值,作为所述目标键值块的主体值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810928930.1/1.html,转载请声明来源钻瓜专利网。