[发明专利]知识图谱的构建方法、装置、电子设备有效
申请号: | 201810620223.6 | 申请日: | 2018-06-15 |
公开(公告)号: | CN110674306B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 郑萌;耿璐;李岚 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 黄灿;张博 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 图谱 构建 方法 装置 电子设备 | ||
1.一种知识图谱的构建方法,其特征在于,包括:
对待处理文本中的每个句子进行分词和句法依存关系分析,得到分词结果和词序列库;
从所述词序列库中筛选出长度大于预设第一阈值的频繁序列,并计算每一频繁序列的频度以及提升度,其中,频度表示所述频繁序列在所述词序列库中出现的概率,提升度表示所述频繁序列中单词之间的相关性;
将提升度大于预设第二阈值和频度大于预设第六阈值的频繁序列中包括的单词合并为新增词,并根据所述新增词更新所述分词结果;
根据更新后的分词结果建立近义词组合,根据所述近义词组合将所述词序列库中的单词替换为同一近义词组合中频度最高的单词;
获取更新后的词序列库中频度高于预设第三阈值且长度为预设第四阈值的词序列,计算所述词序列中单词之间的变体置信度,并根据计算结果判断单词之间的上下位概念,所述变体置信度表示所述词序列中单词或词序列之间的相关性,
其中,所述根据计算结果判断单词之间的上下位概念包括:
计算词序列中最右侧单词与左侧其他词序列或单词的变体置信度,如果所述变体置信度低于预设第五阈值,则判断左侧的词序列或单词为最右侧单词的上位概念。
2.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述对待处理文本中的每个句子进行分词和句法依存关系分析,得到分词结果和词序列库包括:
对所述待处理文本中的每个句子进行分词,得到分词结果;
基于所述分词结果,对所述待处理文本中的每个句子进行句法依存关系分析,并根据句法依存关系分析结果对所述分词结果进行纠正,得到每个句子对应的至少一组词序列,得到包括所有句子的词序列的词序列库。
3.根据权利要求2所述的知识图谱的构建方法,其特征在于,所述根据句法依存关系分析结果对所述分词结果进行纠正,得到每个句子对应的至少一组词序列包括:
当句子中心词是名词时,确定中心词,并递归的找到该中心词的所有定中关系修饰词,生成包括该中心词和该中心词的所有定中关系修饰词的词序列;
当句子中心词是动词或形容词时,判断句子是否存在主谓结构,在句子存在主谓结构时,确定所述主谓结构中的主语名词,并递归的找到该主语名词的所有定中关系修饰词,生成包括该主语名词和该主语名词的所有定中关系修饰词的词序列;在句子不存在主谓结构,存在动宾结构时,确定所述动宾结构中的宾语名词,并递归的找到该宾语名词的所有定中关系修饰词,生成包括该宾语名词和该宾语名词的所有定中关系修饰词的词序列;
在句子中心词不是名词、动词或形容词时,确定句子中所有的定中关系,选取其中修饰词最多的名词,递归的找到该名词的所有定中关系修饰词,生成包括该名词和该名词的所有定中关系修饰词的词序列。
4.根据权利要求1所述的知识图谱的构建方法,其特征在于,在所述频繁序列包括单词A和单词B时,提升度lift(A,B)=P(B|A)/P(B),其中,P(B)为所有包含B的二元组在所有二元组中的比例,P(B|A)为所有包含A的二元组中,B出现的比例,其中,二元组为词序列库中长度为2的词序列。
5.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述根据更新后的分词结果建立近义词组合包括:
根据更新后的分词结果生成词向量;
基于生成的词向量计算单词两两之间的余弦相似度,并基于预设的相似度阈值s,建立所有的近义词组合。
6.根据权利要求5所述的知识图谱的构建方法,其特征在于,所述建立所有的近义词组合包括:
对更新后的分词结果中的所有单词基于词频进行排序;
按照词频的从高到低依次建立每个单词的近义词组合;
建立每个单词的近义词组合包括:
计算该单词与其它单词的相似度;
基于与该单词相似度大于阈值s的至少一个单词建立集合,并基于与该单词的相似度对所述集合中的单词进行排序;
按照相似度的从高到低,依次判断所述集合中的每个单词是否与所述集合中的其他单词的相似度均大于阈值s,如果是,则将判断的单词加入该单词的近义词组合中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810620223.6/1.html,转载请声明来源钻瓜专利网。