[发明专利]一种融合分子结构特征的知识表示学习方法有效
| 申请号: | 202110903382.9 | 申请日: | 2021-08-06 |
| 公开(公告)号: | CN113590843B | 公开(公告)日: | 2023-06-23 |
| 发明(设计)人: | 刘昊;闫金盟;魏志强 | 申请(专利权)人: | 中国海洋大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06N5/022 |
| 代理公司: | 长沙准星专利代理事务所(普通合伙) 43241 | 代理人: | 白甲坡 |
| 地址: | 266100 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 融合 分子结构 特征 知识 表示 学习方法 | ||
本发明涉及一种融合分子结构特征的知识表示学习方法,属于知识图谱领域,将小分子结构特征与知识图谱三元组特征同时进行学习的方法,完成融合了小分子结构信息的知识表示学习过程,并最终形成隐含结构信息以及知识图谱关联信息的新型特征表示。它的成功将会明显提高生物医学领域知识图谱的相关应用的准确性。从而更好地服务于基于机器学习或深度学习的生物医学知识图谱中的药物挖掘的相关应用。
技术领域
本发明属于知识图谱领域,特别涉及一种融合分子结构特征的知识表示方法
背景技术
目前,知识表示学习(Knowledge Representation Learning)的相关研究中,正面临的一个重要挑战:如何实现多源信息融合。现有的知识表示学习模型,仅利用知识图谱的三元组结构信息进行知识表示学习,尚有大量与知识有关的其他信息,如实体与关系的描述信息、类别信息等,而这些文本信息、类别信息、视觉信息等丰富的多源异质信息可以帮助改善数据稀疏问题,提高知识表示的区分能力,如何充分融合这种跨模态信息,实现知识表示学习,具有重要意义。然而,知识表示学习中的多源信息融合的相关研究尚不够成熟和完善。
文本和分子结构信息等多源信息对于知识表示具有重要意义。为了利用丰富的文本信息,可以将实体和单词投影到具有对齐模型的联合向量空间中。从实体描述中直接构建实体表示,能够对新实体进行建模。然而,分子信息尚未用于知识表示。同时,在计算机辅助药物设计领域的相关研究已经证明,配体分子的化学结构信息在药物设计与研发过程中十分重要,是发现药物先导化合物的关键因素之一。
发明内容
本发明要解决的技术问题在于提供一种融合分子结构特征的知识表示学习方法,将药物分子的结构特征融入其知识图谱的表示学习中去,从而更好地服务于基于机器学习或深度学习的生物医学知识图谱中的药物挖掘的相关应用。
本发明是通过如下技术方案来实现的:
一种融合分子结构特征的知识表示学习方法,融合分子结构特征的知识表示学习方法简称为MSKRL,所述方法具体如下:
(1)获取知识图谱构建数据集,然后将小分子实体转换成mol2格式,方便小分子编码器识别;
(2)使用分子结构信息编码器为所有的小分子实体构建初步的表示,分子结构信息编码器由小分子结构特征表示模块和小分子投影模块两部分组成,小分子结构特征表示模块采用现有技术,将小分子结构信息转换成一种低维向量表示,小分子投影模块将这种低维向量投影到相应实体空间;每个实体分子提供重要的小分子结构信息,将每个实体分子作为输入,分子编码器旨在从分子结构中提取信息特征并在实体空间中构建小分子结构信息表示;
(3)构建MSKRL方法的整体得分函数,从而完成知识表示的学习过程,最终得到同时包含分子结构信息与知识图谱三元组信息的表示。具体如下:
经过分子编码器处理后的小分子结构信息与知识图谱三元组特征同时进行学习,给定一个三元组(h,r,t)∈T,所述三元组由两个实体h、t和关系r组成,其中h,t∈E,r∈R,T代表整个三元组训练集,E代表实体的集合,R代表关系的集合;
将每个小分子实体提出两种表示,一种是使用hS、tS设置为头部和尾部实体的基于图谱结构的表示,另外一种新型的知识表示hM、tM作为头部和尾部实体基于小分子结构信息的表示;
在知识表示学习模型中利用结构化知识信息和小分子结构信息,将MSKRL方法的整体得分函数定义如下:
E(h,r,t)=ESS+ESM+EMS+EMM
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学,未经中国海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110903382.9/2.html,转载请声明来源钻瓜专利网。





