[发明专利]基于广义关系隐话题模型的关系网络链接预测方法有效
申请号: | 201310136241.4 | 申请日: | 2013-04-18 |
公开(公告)号: | CN103198228A | 公开(公告)日: | 2013-07-10 |
发明(设计)人: | 陈宁;朱军;张钹 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 广义 关系 话题 模型 网络 链接 预测 方法 | ||
技术领域
本发明涉及计算机应用领域,具体涉及一种基于广义关系隐话题模型的关系网络链接预测方法。
背景技术
飞速发展的信息技术为互联网用户群体提供了海量、异构、互相关联的复杂网络关系数据,包括学术论文引用关系网络、社交关系网络等。深入分析这些网络数据,有效利用关系网络数据的关联结构与网络自然属性,有利于学习更精确的预测模型,提高诸多数据挖掘和预测任务的性能,例如更准确地推荐学术论文引用文献、推荐社交网络好友等。这也是近年来数据挖掘与机器学习领域广泛关注的热点问题之一。
为了更好地学习复杂关系网络数据,实现自动预测关系数据的链接关系等任务,近年来,国际上使用含有隐变量的关系隐层空间模型对关系网络结构进行建模,预测网络链接关系。相关工作包括:使用隐层空间模型学习关系网络数据,例如P.D.Hoff.提出的“Modeling homophily and stochastic equivalence in symmetric relational data”,Advances in Neural Information Processing Systems(2007);E.Airoldi等人提出的“Mixed membership stochastic blockmodels”,Advances in Neural Information Processing Systems(2008)等;以及非参数化的贝叶斯方法例如K.Miller等人提出的“Nonparametric latent feature models for link prediction”,Advances in Neural Information Processing Systems(2009)等;J.Chang等人提出的同时考虑观测数据链接结构和文本信息的模型“Relational topic models for document networks”,International Conference on Artificial Intelligence and Statistics(2009)等。
为了实现链接预测任务,需要定义两个网络实体之间的关系判别函数,学习与所有成对网络实体相关的隐权值矩阵。现有的关系隐层空间模型没有考虑网络是否是对称的,采用对称的对角权值矩阵η定义关于链接指示变量Y的似然函数其中zi,zj为对象实体在隐层特征空间中的表示向量,这里特指非负的隐含话题表示,σ(·)为常用的Sigmoid阈值函数。可以发现等式关系成立,由于隐话题特征的非负性约束以及对角元素之间的互相竞争,因此Z中必然会出现部分元素为正值,还有一部分元素为负值。负值表示两个隐话题之间关系对于链接似然函数产生负影响。而这与我们直观理解一个引用关系网络恰恰是矛盾的,因为从相同隐话题中产生的样本应该更有可能存在“引用-被引用”的链接关系。此外,使用对角权值矩阵,其实暗含了模型是对称性的假设条件,即由i→j和由j→i的链接存在的概率是相同的。这种对称性属性对于很多非对称网络来说都是不合理的。此不合理假设限制了模型发现关系网络隐层空间表示的能力,还影响了模型的预测性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310136241.4/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用