[发明专利]一种基于超节点的常识语义图谱构建方法和装置以及基于连接预测的常识补全方法在审
申请号: | 201810320164.0 | 申请日: | 2018-04-11 |
公开(公告)号: | CN108846000A | 公开(公告)日: | 2018-11-20 |
发明(设计)人: | 沈琼;朱嘉奇;王宏安 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 邱晓锋 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 超节点 方法和装置 图谱构建 语义关系 语义网络 预测 短语 常识知识 关联关系 人工编辑 辅助的 复杂度 词语 图谱 集合 提炼 自动化 涵盖 检验 网络 发现 | ||
本发明公开了一种基于超节点的常识语义图谱构建方法和装置以及基于连接预测的常识补全方法。本发明的常识语义图谱由概念或者实体为超节点,语义关系为边构成的复杂语义网络。每个超节点由一组相同或者相似语义的词语或者短语组成一个集合,表征一个概念或者实体,语义关系根据领域经验,提炼总结出概念或实体之间的关联关系。本发明的优势在于一方面可以扩大概念的外延范围,尽可能地涵盖同一概念的多种体现,另一方面可以减少网络的连接数量,大大降低语义网络的复杂度。基于连接预测的常识补全方法在已有常识基础上自动化地发现新常识,常识的来源不再单纯地靠人工编辑添加,人工只需要起辅助的检验,就可以快速得到大量的常识知识。
技术领域
本发明属于人工智能领域,具体涉及一种基于超节点的常识语义图谱构建方法和装置,以及基于连接预测的常识补全方法。
背景技术
随着大数据时代的到来,基于数据驱动的人工智能应用取得了一个个显著的成功,比如机器翻译,图像识别等,但是数据的有偏性,非全量,抽象程度低等数据的固有特点导致训练出来的模型智能不够高,学习的方式低效。现在已经有学者在积极尝试基于知识的学习,比如在聊天机器人方面,微软的千人千面,人见人爱小冰聊天机器人背后就有强大的知识库支持,还有基于知识图谱的推荐系统的研究等也取得了显著成效。常识是一种基本但是特殊的知识,这种知识人人都具有,但是计算机却没有!导致当前大多数辛苦构建的智能系统的智商不如一个五岁的孩子,所以MIT有学者提出了可实用的AI需要常识知识的提议。
常识既然是人产生的通用知识,不同文化对常识的表达和形式有所不同。如何将自然语言表示的非结构化常识表示为计算机能处理和理解的结构化知识,国内外的学者都进行了研究探索。比如国外有基于一阶逻辑表示的CYC英文常识库,采用逻辑推演的方式进行常识推理,但是这种表示比较复杂,需要很多的专家经验,无法扩展到大规模的常识。随后也有 ConceptNet的基于三元组的表示形式,这种表示采用一个term来表示一个概念节点,会导致网络存在很多的冗余,构成的语义网络比较复杂。同时在言语交互中,由于中文的一意多词的普遍存在,文本里出现的概念词不一定就是常识库里已有的概念词,导致常识的召回率不高。
目前的常识库的常识来源一般是基于众包的形式,从大众那里获得常识,但是这种获取方法比较耗时耗力,常识的准确度受常识提供者影响比较大,导致获取的常识多而不精,虽然也有人尝试从文本中自动提取常识,但是由于常识的隐含性和多样性,一般只能在特定领域提取特定的常识知识,提取的准确度也不高。
发明内容
本发明针对上述问题,提出了一种基于超节点的常识语义图谱构建方法和和装置,以及基于连接预测的常识补全方法。其中常识语义图谱构建方法也可称为常识语义图谱表示方法。本语义图谱采用一个同义词集合来表示一个概念或者实体,形成语义图谱的超节点,节点与节点之间通过语义关系来连接。为了自动化地扩充常识库,本语义图谱在基于超节点表示的语义三元组基础上,通过将语义三元组嵌入到向量空间,采用连接预测的方法推理常识来完善常识库。
本发明首先提供一种基于超节点的常识语义图谱构建方法,包括以下步骤:
1)建立超节点,所述超节点代表一个概念或者实体,由一组同义词集合来表示;
2)建立语义关系,所述语义关系表示概念或实体之间的关联关系;
3)设置常识的属性,所述属性包括常识的置信度和常识检索的频率;
4)由所述超节点、所述语义关系和所述属性构成常识语义图谱,所述超节点之间以语义关系为边来连接,所述属性附属在所述边上。
具体来说,基于超节点表示的常识语义图谱由超节点,语义关系,属性(包括置信度,频率项)组成,分别说明如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810320164.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于多尺度区域特征比对的商标图像检索方法
- 下一篇:菜谱推荐的方法和装置