[发明专利]知识图谱生成方法、装置、计算机设备以及存储介质有效
申请号: | 201810828187.2 | 申请日: | 2018-07-25 |
公开(公告)号: | CN110851610B | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 许瑾;刘文昱;郝萌 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 图谱 生成 方法 装置 计算机 设备 以及 存储 介质 | ||
1.一种知识图谱生成方法,其特征在于,所述方法包括以下步骤:
对包含多次搜索的搜索会话,获取在所述搜索会话中用户输入的各搜索词;
根据各搜索词之间的文本重合情况或各搜索词的句法结构,确定各搜索词之间的语义包含关系;
将各搜索词作为知识图谱节点,根据各搜索词之间的语义包含关系,确定各节点之间的父子关系;
根据所述父子关系,生成所述知识图谱;
所述根据各搜索词之间的文本重合情况或各搜索词的句法结构,确定各搜索词之间的语义包含关系,包括:
根据各搜索词之间的句法结构,从各搜索词中,确定具有定语中心语结构关系的搜索词、具有并列关系的搜索词以及具有修饰关系的搜索词中的至少一个;
对具有定语中心语结构关系的搜索词,确定作为中心语的搜索词在语义上包含作为定语的搜索词;
对具有修饰结构关系的搜索词,确定作为中心语的搜索词在语义上包含作为修饰语的搜索词;
确定具有并列关系的搜索词之间具有语义包含关系。
2.根据权利要求1所述的知识图谱生成方法,其特征在于,所述根据各搜索词之间的文本重合情况或各搜索词的句法结构,确定各搜索词之间的语义包含关系,包括:
在获取到的各搜索词的文本字符中,搜索各文本字符的最大子串;
确定各文本字符的最大子串对应的搜索词,与相应文本字符对应的搜索词之间具有语义包含关系。
3.根据权利要求1所述的知识图谱生成方法,其特征在于,所述根据各搜索词之间的语义包含关系,确定各节点之间的父子关系之后,还包括:
根据子节点对应搜索词中各单词的重要度,确定子节点对应搜索词的信息熵;其中,所述重要度用于指示单词对于所述搜索词所表达意图的重要程度;
根据父节点对应搜索词中各单词的重要度,确定父节点对应搜索词的信息熵;
根据所述子节点对应搜索词的信息熵与所述父节点对应搜索词的信息熵之间的差异程度,确定所述子节点与所述父节点之间父子关系的置信度。
4.根据权利要求1所述的知识图谱生成方法,其特征在于,所述根据各搜索词之间的语义包含关系,确定各节点之间的父子关系之后,还包括:
根据多个搜索会话中用户输入的各搜索词,确定父节点对应搜索词出现的频率,以及确定父节点对应搜索词和子节点对应搜索词在同一个搜索会话中出现的共现频率;
根据所述共现频率与所述父节点对应搜索词出现的频率之比,以及根据所述父节点对应搜索词出现的频率与所述多个搜索会话的个数之比,确定所述子节点与所述父节点之间父子关系的置信度。
5.根据权利要求1-4任一项所述的知识图谱生成方法,其特征在于,所述对包含多次搜索的搜索会话,获取在所述搜索会话中用户输入的各搜索词之前,还包括:
根据所述知识图谱中涉及的知识点,查询与所述知识点匹配的搜索会话。
6.根据权利要求5所述的知识图谱生成方法,其特征在于,所述对包含多次搜索的搜索会话,获取在所述搜索会话中用户输入的各搜索词之后,还包括:
根据所述搜索会话匹配的知识点,从所述用户输入的各搜索词中筛选保留与所述知识点匹配的搜索词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810828187.2/1.html,转载请声明来源钻瓜专利网。