[发明专利]一种用于医学影像的知识图谱构建方法有效
申请号: | 201811451908.9 | 申请日: | 2018-11-30 |
公开(公告)号: | CN109378053B | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 李传富 | 申请(专利权)人: | 安徽影联云享医疗科技有限公司 |
主分类号: | G16H30/20 | 分类号: | G16H30/20 |
代理公司: | 安徽知问律师事务所 34134 | 代理人: | 代群群 |
地址: | 230000 安徽省合肥*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 医学影像 知识 图谱 构建 方法 | ||
1.一种用于医学影像的知识图谱构建方法,其特征在于,构建过程包括:
(一)知识表示,采用框架理论表示法,将存储在图数据库中的所有数据构成实体关系网络,形成知识图谱;
(二)知识获取,先进行实体、属性和属性值抽取,再进行实体间以及实体属性间的关系抽取,获得新知识;实体、属性和属性值抽取的知识来源为非结构化数据;
(三)知识融合,对获得的新知识进行整合,消除歧义;
(四)知识加工,对知识融合后的数据,进行知识推理和质量评估,将合格的数据加入到知识图谱中;
(五)知识更新,根据医学影像知识的更新发展,更新知识图谱;
所述数据通过以下三种方式获取:
方式一、采用基于规则和词典的方法获取;
基于规则和词典的方法获取非结构化数据的具体方法如下:
从非结构化文本中,通过正则表达式和正向最大匹配算法获取结构化的医学知识;
通过正则表达式和正向最大匹配算法获取结构化的医学知识的具体过程如下:
首先是通过正则表达式获取句子,再通过正向最大匹配法进行分词;
将HanLP分词器导入内存,将RadLex元数据词典翻译成中文,并对RadLex元数据词典的分类进行细化,得到改进的数据词典,导入内存;对影像检查报告单进行总结训练,得到同义词词典,同样导入内存;HanLP分词器、改进的数据词典和同义词词典三者形成分词词典,将待查询的句子按照从左到右的最长匹配原则在分词词典中进行查找;
在分词词典中采用二分快速查找法查找词组:在查找词组过程中,读取句子中的首个字符,定位到分词词典中的起始位置和结束位置,再进行二分法查找;
在查找词组的过程中,记录起始到结束位置之间所有词语的最大长度,从最大长度开始查找,逐一递减,直至找到该词结束;
方式二、采用基于统计的实体命名识别方法获取;
基于统计的实体命名识别方法获取结构化数据的具体方法如下:
对于词典中未出现的词,首先选取样本总量的5-10%进行词性标注,再通过隐马尔可夫模型对海量的医学知识文本进行训练从而得到词向量,统计并计算未出现词与已标记词之间的相似度,通过比较相似度的大小来判断未出现词和已出现词之间的相似性;
隐马尔可夫模型在训练的时候需要三个参数,即(P,A,B),其中P为先验概率,A为词性之间的状态转移概率矩阵,表示某一标注转移到下一个标注的概率;B为词到词的观察概率矩阵,表示在某个标注下,生成某个词的概率;通过分析语料库获得以上三个参数,统计每个出现的词的词性以及计算每个词出现的次数及其后续词性出现的次数和词性对应的词,通过以上统计信息可以训练出三个参数进而通过频率来计算概率:
公式1表示词性之间的状态转移概率:
公式1中#(St-1,St)表示的是两个词性先后出现的次数,#(St-1)表示的是单个词性出现的次数;
公式2表示词到词的观察概率:
公式2中#(Ot,St)表示的是两个词同时出现的次数,#(St)表示的是单个词出现的次数;
方式三、采用基于语义分析方法获取;
基于语义分析方法获取结构化数据的具体方法如下:
首先对句子中的核心谓语动词进行标注,然后找到句子中的根节点,自动分析句子中剩余的成分,通过训练,计算机能对前面的输出进行记忆并应用于当前输出的计算中,并将前面的输出作为后面的输入,从而实现将两个句子联系在一起。
2.根据权利要求1所述的一种用于医学影像的知识图谱构建方法,其特征在于,过程(一)中,所述知识表示以框架名-侧面-侧面名作为基本表达方式,具体表示过程如下:
通过纵向联系把具有继承关系的上下层框架联系在一起,通过横向联系以一个框架名作为一个槽的槽值或侧面值建立起框架之间的联系;
在框架理论构建过程中通过继承、匹配和填槽三种方式来完成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽影联云享医疗科技有限公司,未经安徽影联云享医疗科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811451908.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:图像标注的预处理方法及系统
- 下一篇:一种多模态图像辅助诊断系统及其搭建方法