[发明专利]医学知识图谱构建方法、装置、服务器及存储介质在审
申请号: | 201811129838.5 | 申请日: | 2018-09-27 |
公开(公告)号: | CN109284396A | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 沈颖;雷凯;司尚春 | 申请(专利权)人: | 北京大学深圳研究生院 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F17/27 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 徐立 |
地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医学知识 训练数据集 图谱构建 文本数据 神经网络训练 存储介质 关系抽取 医学 服务器 预处理 文本 人工智能领域 实体间关系 医学数据 构建 省时 省力 标注 图谱 自动化 学习 | ||
本发明公开了一种医学知识图谱构建方法、装置、服务器及存储介质,属于人工智能领域。所述方法包括:获取文本数据并对文本数据进行预处理,得到训练数据集;采用所述训练数据集进行神经网络训练,得到面向医学文本的同义实体学习模型;采用所述训练数据集进行神经网络训练,得到面向医学文本的关系抽取模型;通过所述同义实体学习模型和所述关系抽取模型从利用医学文本数据中获取同义实体和实体间关系,得到医学知识图谱。该医学知识图谱构建方法通过构建的模型自动化完成,无需通过人工对海量医学数据进行标注来获得,省时省力。
技术领域
本发明涉及人工智能领域,特别涉及一种医学知识图谱构建方法、装置、服务器及存储介质。
背景技术
近几年来,知识图谱开始在学术界和工业界普及并引起广泛关注。知识图谱是一种旨在实现更智能搜索引擎的语义网络,本质上是一个具有有向图结构的知识库。随着互联网和信息产业的发展,医学相关的数据呈爆发式增长。
由于医学这个特定专业领域,与通用领域相比具有较强的专业性,因此在构建知识图谱时会遇到特有的问题,如:医学语境的固化导致某些词汇常常共现,以至共现词被错误解读为同义词;某些医学实体在文本中出现频率过低(也即低频词多),难以学习;实体所在的文本信息不完备、背景知识不足、信息描述模糊,导致关系抽取困难,准确率低;医学专业文本更长,文本中实体间隔更大,带来实体间关系弱、难以捕捉的挑战。因此,现有医学知识图谱主要是通过人工对海量医学数据进行标注来获得,耗时耗力。
发明内容
为了解决现有医学知识图谱主要是通过人工对海量医学数据进行标注来获得,耗时耗力的问题,本发明实施例提供了一种医学知识图谱构建方法、装置、服务器及存储介质。所述技术方案如下:
一方面,本发明实施例提供了一种医学知识图谱构建方法,所述方法包括:
获取文本数据并对文本数据进行预处理,得到训练数据集;
采用所述训练数据集进行神经网络训练,得到面向医学文本的同义实体学习模型;
采用所述训练数据集进行神经网络训练,得到面向医学文本的关系抽取模型;
通过所述同义实体学习模型和所述关系抽取模型从利用医学文本数据中获取同义实体和实体间关系,得到医学知识图谱。
在本发明实施例的一种实现方式中,所述获取文本数据并对文本数据进行预处理,得到训练数据集,包括:
获取多源异构医学领域文本数据;
对获取到的所述多源异构医学领域文本数据进行分词处理,得到医学领域的数据集;
获取通用领域文本数据;
对获取到的所述通用领域文本数据进行分词处理,得到通用领域的数据集;
通过远监督方式对所述医学领域的数据集和所述通用领域的数据集进行文本对齐和标注,得到所述训练数据集。
在本发明实施例的另一种实现方式中,所述采用所述训练数据集进行神经网络训练,得到面向医学文本的同义实体学习模型,包括:
在神经网络语言模型中添加已有医学词汇层级结构信息和现有同义词信息;
设计所述神经网络语言模型,使其能够同时考虑全局上下文和局部上下文;
采用所述训练数据集作为训练语料对所述神经网络语言模型进行训练,得到所述同义实体学习模型。
在本发明实施例的另一种实现方式中,所述采用所述训练数据集进行神经网络训练,得到面向医学文本的关系抽取模型,包括:
采用双向门控循环单元模型作为关系抽取的训练模型,并在所述训练模型中添加注意力机制;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811129838.5/2.html,转载请声明来源钻瓜专利网。