[发明专利]人类表型标准用语提取方法在审

专利信息
申请号: 201911287912.0 申请日: 2019-12-15
公开(公告)号: CN112992303A 公开(公告)日: 2021-06-18
发明(设计)人: 杨亚平;于惠;李广震;王夏;徐卫志 申请(专利权)人: 苏州市爱生生物技术有限公司
主分类号: G16H10/60 分类号: G16H10/60;G06F40/289;G06F40/247;G06F16/903
代理公司: 暂无信息 代理人: 暂无信息
地址: 江苏省苏州市吴中经济开发区*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 人类 表型 标准 用语 提取 方法
【说明书】:

发明提供了一种基于熵的人类表型标准用语的提取方法,首先对电子病历进行分析提取获得疾病特征字符串,将提取出的疾病特征字符串与人类表型标准用语库中的记录进行对齐,在对齐之后进行块划分操作得到块划分文件,然后根据块划分文件进行熵计算获得疾病特征字符串与人类表型标准用语库中每个记录的相似度,最后根据最高相似度提取出相对应的人类表型标准用语。本发明的方法可以获得最大匹配长度的字符串,经过试验证实,可以显著提高提取的准确率。

技术领域

本发明属于生物信息领域,尤其涉及医学电子病历中人类表型标准用语的提取方法。

背景技术

本部分的陈述仅是提供了与本公开相关的背景技术,并不必然构成现有技术。

人类表型是临床数据和医学文献数据中重要的实体性信息,是医生诊断与治疗的主要依据。而电子病历中的表型信息往往都是非结构化数据,且以自然语言形式存在,给后续进行病历数据的应用带来困难。因此,对于病历数据的应用,需要根据具体情况进行文本的分析和信息抽取。

人类遗传性疾病的发病率和死亡率有逐年增高的趋势,人类的遗传性疾病已经成为威胁人类健康的一个重要因素,严重的遗传性疾病每年影响全世界700多万新生儿,而这些疾病往往又进展很快。因此,诊断这些疾病迫在眉睫,并且要求疾病诊断的时间要尽可能缩短。但是,手动诊断和评估病历会浪费大量时间及精力。一般来说,识别患者的致病基因一般需要花费一周左右的时间,而且还可能受到临床医生的主观影响,受限于临床医疗专家的医疗水平,无法针对相关性不明显的疾病做出诊断。如果能自动对患者的疾病进行识别,或者自动找出患者疾病和自身基因变异的对应关系,来辅助医生诊断,将大大减少医生做出诊断的时间,给患者赢得宝贵的治疗时间。但是,电子病历、医学文献等信息中对病人疾病表型的描述往往都是非结构化数据,且以自然语言形式存在,这严重阻碍了使用自动方法对疾病进行识别、或者对基因突变和疾病的对应关系识别。因此,临床数据中人类表型标准用语的自动提取非常重要。

传统方法中,基于规则的方法依赖于现有的医学词汇,如正则表达式的运用,但基于人工总结的规则和模板常常难以覆盖各种语言现象,且泛化能力较差,领域可移植性不佳,研究者们很难设计出完整的规则来覆盖各种情况。基于字典的方法因简单性被广泛使用,通过计算语义相似度,可以通过字典中已有的词来对目标概念进行标注;但是,该方法过分依赖外部数据的规模和质量,且搜集语料的过程耗费大量人力资源。

目前,自动提取人类表型标准用语的方法大多将自然语言的描述与标准用语库进行匹配,根据计算所得的相似度找出相对应的HPO标准词汇。Human Phenotype Ontology(HPO)是人类表型本体论,HPO目前包含13000多个术语和156000多个遗传病注释,提供了人类疾病中遇到的表型异常的标准化词汇。HPO的每个术语都描述一种表型异常,例如:HP:0001250是Seizures(癫痫发作)的ID。

发明内容

针对现有技术中存在的问题,本公开提供了一种从临床电子病历进行人类表型标准用语提取的方法。

通常,对于非结构化的电子病历,需要先利用自然语言处理算法进行分词、词形还原以及去除停用词等预处理。在预处理完的电子病历中,再进行疾病特征字符串的识别与人类表型标准用语的转换。

本发明的实施例提供了一种基于熵的人类表型标准用语的提取方法,包括如下步骤:

(1)对电子病历数据进行分析提取,获得疾病特征字符串;

(2)将疾病特征字符串与人类表型标准用语库中的每个记录进行字符串匹配,标记出疾病特征字符串与人类表型标准用语库中每个记录的匹配关系,生成对齐文件;

(3)对生成的对齐文件进行块划分,得到块划分文件;

(4)根据块划分文件进行熵计算,获得疾病特征字符串与人类表型标准用语库中每个记录的相似度,根据最高相似度提取对应的人类表型标准用语。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州市爱生生物技术有限公司,未经苏州市爱生生物技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911287912.0/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top