[发明专利]异构信息网络的半监督学习方法及装置在审

申请号：	201710639781.2	申请日：	2017-07-31
公开（公告）号：	CN107451613A	公开（公告）日：	2017-12-08
发明（设计）人：	姜和;宋阳秋;王晨光;张铭;孙怡舟	申请（专利权）人：	广州市香港科大霍英东研究院
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	广州三环专利商标代理有限公司44202	代理人：	梁顺宜,郝传鑫
地址：	511458 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	信息网络监督学习方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及机器学习领域，尤其涉及一种异构信息网络的半监督学习方法及装置。

背景技术

机器学习方法试图利用任务的历史数据来改善任务的性能。为了得到好的学习性能，机器学习方法例如监督学习方法，通常要求历史数据都有明确的概念标记(称为有标记数据)且要求有大量的有标记数据。在很多现实任务中，由于概念标记的获取需要耗费大量的人力物力资源，因此有标记数据通常是稀少的，而大量没有概念标记的历史数据(称为未标记数据)则可以容易得到。如何利用大量未标记数据来辅助提高仅利用少量有标记数据得到的性能已成为机器学习方法的一个重要课题，而半监督学习方法是应用部分标记的数据进行训练的一种机器学习算法。一种主流的半监督学习方法为图的半监督学习，所谓的图主要是基于数据相似度的k最近邻度，但是这种方法将图中的实体和边看作是同一类型。

在真实世界中，存在各种类型的数据，从而构成了异构信息网络，异构信息网络的半监督学习方法已经得到广泛关注。现有技术通过预设元路径进行异构信息网络的半监督学习，随机游走的路径需由元路径的类型来限定，例如，如图1b所示，当随机游走的路径为v1→v2→v3→v4→v5，其中，v1的类别为A1,v2的类别为A2,v3的类别为A3,v4的类别为A4,v5的类别为A5,可以理解的是，对于图1a所示的元路径A1→A2→A3→A2，获得的邻接矩阵的次级矩阵分别是W_A1,A2,W_A2,A3和W_A3,A2，如图1c所示，而对于A2→A1，如果所述邻接矩阵也包括次级矩阵W_A1,A2，则当随机游走执行A2→A3，也存在一定的可能性执行A2→A1，因此采用元路径进行半监督学习的随机游走存在不稳定缺点。

发明内容

本发明实施例的目的是提供一种异构信息网络的半监督学习方法及装置，能有效解决现有的半监督学习局限于同构信息网络，且能有效解决现有采用元路径进行随机游走存在不稳定的问题，能有效提高半监督学习的效率。

为实现上述目的，本发明实施例提供了一种异构信息网络的半监督学习方法，包括步骤：

获取多个实体的信息构建异构信息网络，并根据所述多个实体的类型构建所述异构信息网络的概要图；其中，所述异构信息网络中的每一节点与每一实体相对应；

将异构信息网络的概要图划分为若干个子图，每一所述子图对应一元图，分别计算每一所述元图的邻接矩阵；其中，所述子图包括预设的实体类型；

根据每一所述元图的邻接矩阵，对预设的类别执行每一所述元图的标记传递过程，获得所述类别的若干个第一预测标记向量，将每一所述第一预测标签向量进行集成获得所述类别的第二预测标签向量；

根据若干个预设类别的第二预测标记向量预测未标记节点的标记结果。

与现有技术相比，本发明公开的异构信息网络的半监督学习方法通过基于构建的异构信息网络的概要图划分为若干个子图，以每一子图作为一个元图基于预设的类别进行标记传递过程，从而获得所述类别的若干个第一预测标记向量，将每一所述第一预测标签向量进行集成获得所述类别的第二预测标签向量技术，然后根据若干个预设类别的第二预测标记向量预测未标记节点的标记结果，能有效克服了现有的基于图的半监督学习仅适用于同构信息网络的局限性，且能有效解决现有采用元路径进行随机游走存在不稳定的问题，能有效提高半监督学习的效率。

作为上述方案的改进，所述标记传递过程为惰性随机游走过程，所述惰性随机游走过程的转移概率矩阵为：

P＝(1-α)I+αWD^-1

其中，P为所述惰性随机游走过程的转移概率矩阵，α为控制标记向邻居节点传递的概率，W为邻接矩阵，D为对角阵，且对角元素D_ii＝∑W_ij。

作为上述方案的改进，所述惰性随机游走过程具体为：从已标记节点出发进行惰性随机游走，直到所有未标记节点的第一预测标记向量不再改变时则停止；其中，所述所有未标记节点的第一预测标记向量不再改变需满足存在稳态分布概率π使得P＝πP。

作为上述方案的改进，对预设的类别执行每一所述元图的标记传递过程，获得所述类别的若干个第一预测标记向量具体为：

基于预设的类别，根据每一所述元图的邻接矩阵通过以下公式进行迭代运算：

其中，所述为时刻t+1已学习的标记向量，为时刻t已学习的标记向量，为元图S_i的邻接矩阵，为对角阵，且对角元素I_k初始标记向量；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州市香港科大霍英东研究院，未经广州市香港科大霍英东研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710639781.2/2.html，转载请声明来源钻瓜专利网。