[发明专利]医学知识图谱构建方法、装置、服务器及存储介质在审

申请号：	201811129838.5	申请日：	2018-09-27
公开（公告）号：	CN109284396A	公开（公告）日：	2019-01-29
发明（设计）人：	沈颖;雷凯;司尚春	申请（专利权）人：	北京大学深圳研究生院
主分类号：	G06F16/36	分类号：	G06F16/36;G06F17/27
代理公司：	北京三高永信知识产权代理有限责任公司 11138	代理人：	徐立
地址：	518055 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	医学知识训练数据集图谱构建文本数据神经网络训练存储介质关系抽取医学服务器预处理文本人工智能领域实体间关系医学数据构建省时省力标注图谱自动化学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种医学知识图谱构建方法、装置、服务器及存储介质，属于人工智能领域。所述方法包括：获取文本数据并对文本数据进行预处理，得到训练数据集；采用所述训练数据集进行神经网络训练，得到面向医学文本的同义实体学习模型；采用所述训练数据集进行神经网络训练，得到面向医学文本的关系抽取模型；通过所述同义实体学习模型和所述关系抽取模型从利用医学文本数据中获取同义实体和实体间关系，得到医学知识图谱。该医学知识图谱构建方法通过构建的模型自动化完成，无需通过人工对海量医学数据进行标注来获得，省时省力。

技术领域

本发明涉及人工智能领域，特别涉及一种医学知识图谱构建方法、装置、服务器及存储介质。

背景技术

近几年来，知识图谱开始在学术界和工业界普及并引起广泛关注。知识图谱是一种旨在实现更智能搜索引擎的语义网络，本质上是一个具有有向图结构的知识库。随着互联网和信息产业的发展，医学相关的数据呈爆发式增长。

由于医学这个特定专业领域，与通用领域相比具有较强的专业性，因此在构建知识图谱时会遇到特有的问题，如：医学语境的固化导致某些词汇常常共现，以至共现词被错误解读为同义词；某些医学实体在文本中出现频率过低(也即低频词多)，难以学习；实体所在的文本信息不完备、背景知识不足、信息描述模糊，导致关系抽取困难，准确率低；医学专业文本更长，文本中实体间隔更大，带来实体间关系弱、难以捕捉的挑战。因此，现有医学知识图谱主要是通过人工对海量医学数据进行标注来获得，耗时耗力。

发明内容

为了解决现有医学知识图谱主要是通过人工对海量医学数据进行标注来获得，耗时耗力的问题，本发明实施例提供了一种医学知识图谱构建方法、装置、服务器及存储介质。所述技术方案如下：

一方面，本发明实施例提供了一种医学知识图谱构建方法，所述方法包括：

获取文本数据并对文本数据进行预处理，得到训练数据集；

采用所述训练数据集进行神经网络训练，得到面向医学文本的同义实体学习模型；

采用所述训练数据集进行神经网络训练，得到面向医学文本的关系抽取模型；

通过所述同义实体学习模型和所述关系抽取模型从利用医学文本数据中获取同义实体和实体间关系，得到医学知识图谱。

在本发明实施例的一种实现方式中，所述获取文本数据并对文本数据进行预处理，得到训练数据集，包括：

获取多源异构医学领域文本数据；

对获取到的所述多源异构医学领域文本数据进行分词处理，得到医学领域的数据集；

获取通用领域文本数据；

对获取到的所述通用领域文本数据进行分词处理，得到通用领域的数据集；