[发明专利]兴趣点知识图谱构建方法、装置、电子设备及存储介质有效
申请号: | 201910967090.4 | 申请日: | 2019-10-12 |
公开(公告)号: | CN110909170B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 梁海金;王海峰;李莹;朱勇 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/335;G06F40/279 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 兴趣 知识 图谱 构建 方法 装置 电子设备 存储 介质 | ||
1.一种兴趣点知识图谱构建方法,其特征在于,包括:
按照第一解析方式对获取自预定来源的页面内容进行解析,并按照第二解析方式对获取自任意来源的页面内容进行解析,从中挖掘出兴趣点信息;其中,所述第二解析方式包括:针对包含兴趣点信息的页面内容,进行以下处理:对所述页面内容进行解析,从中提取出关键字-取值形式的数据;对提取出的数据按照预定规则进行聚类,将每个聚类结果作为一个数据块;针对每个数据块,若能够确定出所述数据块对应的属于兴趣点的主实体,则将所述主实体及对应的数据块中的数据作为挖掘出的兴趣点信息;
针对挖据出的任一兴趣点,若确定所述兴趣点为兴趣点知识图谱中已有的兴趣点,则将所述兴趣点与所述已有的兴趣点进行信息融合,若确定所述兴趣点为新增的兴趣点,则将所述兴趣点信息加入到所述兴趣点知识图谱中。
2.根据权利要求1所述的方法,其特征在于,
所述按照第一解析方式对获取自预定来源的页面内容进行解析包括:
针对包含兴趣点信息的页面内容,利用所配置的解析模板,从所述页面内容中提取出兴趣点信息。
3.根据权利要求1所述的方法,其特征在于,
所述确定出所述数据块对应的属于兴趣点的主实体包括:
在包含所述数据块的预定区域及页面标题内,识别属于兴趣点的候选实体;
若识别到至少一个候选实体,则针对每个候选实体,分别获取所述候选实体的预定特征,基于所述预定特征及训练得到的分类模型确定出所述候选实体是否为主实体。
4.根据权利要求1所述的方法,其特征在于,
所述兴趣点信息包括:兴趣点的基础属性信息;所述基础属性信息包括:属性和属性值;
所述挖掘出兴趣点信息之后,进一步包括:对挖据出的兴趣点的属性和属性值进行规范化处理。
5.根据权利要求4所述的方法,其特征在于,
所述对挖据出的兴趣点的属性和属性值进行规范化处理包括:
将所述属性映射为所定义的知识图谱提要中的属性表示;
过滤掉所述属性值中的异常值;
将所述属性值转换为规范格式。
6.根据权利要求1所述的方法,其特征在于,
该方法进一步包括:
针对挖掘出的任一兴趣点,利用预定规则从所述兴趣点知识图谱中查找出可能同义的候选兴趣点;
分别将每个候选兴趣点与所述兴趣点组成一个兴趣点对;
针对每个兴趣点对,分别获取所述兴趣点对的预定特征,基于所述预定特征及训练得到的评估模型确定出所述兴趣点对的相似度评分;
根据所述相似度评分确定出所述兴趣点是否为所述兴趣点知识图谱中已有的兴趣点。
7.根据权利要求6所述的方法,其特征在于,
所述兴趣点对的预定特征包括:所述兴趣点对中的两个兴趣点分别对应于相同属性的属性值的相似度;
其中,针对不同类型的属性值,分别采用不同的相似度计算方式。
8.根据权利要求6所述的方法,其特征在于,
所述根据所述相似度评分确定出所述兴趣点是否为所述兴趣点知识图谱中已有的兴趣点包括:
若所述相似度评分的最大值大于第一阈值,且所述相似度评分的最大值与所述相似度评分的次大值之间的差值大于第二阈值,则确定所述兴趣点为所述兴趣点知识图谱中已有的兴趣点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910967090.4/1.html,转载请声明来源钻瓜专利网。