[发明专利]一种中文电子病历中症状的标准化表型自动获取方法在审

专利信息
申请号: 202210102372.X 申请日: 2022-01-27
公开(公告)号: CN114610834A 公开(公告)日: 2022-06-10
发明(设计)人: 蒋艳凰;张少伟;彭厘旻;雷鹏;万斌;余硕军;康佳琪;胡耀各 申请(专利权)人: 人和未来生物科技(长沙)有限公司
主分类号: G06F16/31 分类号: G06F16/31;G06F40/295;G06K9/62;G06F40/169;G06F16/35;G06N3/04;G16H10/60
代理公司: 湖南兆弘专利事务所(普通合伙) 43008 代理人: 邹大坚
地址: 410000 湖南省长沙市长沙高*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 中文 电子 病历 症状 标准化 表型 自动 获取 方法
【权利要求书】:

1.一种中文电子病历中症状的标准化表型自动获取方法,其特征在于,包括:

否定域剔除,将病历中与疾病无关的正常症状剔除;

症状实体提取与组合,将疾病相关症状提取出来;

表型标准化与匹配,将病历中的疾病症状与标准化表型进行匹配,确定哪些标准化表型与患者症状相关,获得的标准化表型作为医疗辅助诊断系统中患者表型的输入。

2.根据权利要求1所述的中文电子病历中症状的标准化表型自动获取方法,其特征在于,在进行症状类实体提取过程中,将临床病历中的症状类实体分为修饰实体MOD、症状的部位实体BODY以及症状的表征实体SYM三个细分种类,一个完整的症状类实体由症状的表征实体加上修饰实体MOD、症状的部位实体BODY组成。

3.根据权利要求2所述的中文电子病历中症状的标准化表型自动获取方法,其特征在于,在进行症状类实体提取过程中,使用词嵌入方法将临床病历文本向量化为输入特征,利用训练好的神经网络模型,对输入特征的类型判断,并将识别结果输出,实现症状类实体的自动提取。

4.根据权利要求3所述的中文电子病历中症状的标准化表型自动获取方法,其特征在于,所述症状类实体提取过程的流程包括:

步骤S10:模型选择;采用双向长短时记忆网络-条件随机场模型结构;

步骤S20:语料标注;采用BIO标注法作为语料的标注方法,其中B代表目标实体的起始字符;I代表目标实体词中的字符,包含实体词末尾位置;O代表不在目标实体中的字符;

步骤S30:训练;按照预设比例将标注文本分为训练集、测试集和验证集;以句为单位对标注文本进行划分,标注文本送入模型训练前需经过向量化,将文字与标注转化为计算机能够识别的字符代号,完成向量化,而后进行模型训练。

5.根据权利要求1-4中任意一项所述的中文电子病历中症状的标准化表型自动获取方法,其特征在于,所述实体组合的流程包括:

步骤S100:实体组合;根据中文表述方法及语料标注特点进行实体组合,临床病历以句为单位经过实体提取后,得到实体的组合序列,按照规则对实体重组后得到最终的症状实体;

步骤S200:将症状实体转化为标准语句。

6.根据权利要求5所述的中文电子病历中症状的标准化表型自动获取方法,其特征在于,进行实体组合时,一个症状词有且只有一个SYM实体,并包括有若干MOD、BODY实体,词序不受限制。

7.根据权利要求5所述的中文电子病历中症状的标准化表型自动获取方法,其特征在于,进行实体组合时,语言的表述是连续的。

8.根据权利要求1-4中任意一项所述的中文电子病历中症状的标准化表型自动获取方法,其特征在于,所述表型标准化的过程中,将病历中每个分句中的各症状类实体与每个标准化表型对应的症状类实体进行匹配,再获取综合匹配度。

9.根据权利要求8所述的中文电子病历中症状的标准化表型自动获取方法,其特征在于,所述匹配的流程包括:

(1)将各实体词转化为词向量的形式;

(2)对于每个病历分句,将病历分句中各症状类实体和标准化表型相同类型的实体词进行匹配,获得每种实体的匹配度,令病历分句中的症状为R,标准化表型为H,则实体间匹配采用余弦距离:

Match(R,H,SYM)=Embed(SYMR)·Embed(SYM H)

Match(R,H,BODY)=Embed(BODYR)·Embed(BODYH)

Match(R,H,MOD)=Embed(MODR)·Embed(MODH)

对于症状实体有多个实体词的情况,则先选出匹配最高的一对实体词,再选出匹配度次高的一对实体词,原来已经匹配过的实体词不再参与匹配,依次类推,最后该实体匹配度取多个实体词匹配度之和与1中较小的那个值:

若病历分句的症状R或标准化表型H中有一个或两者均无相应的症状实体,则实体的匹配度为一个很小的负值δ;

(3)获得综合匹配度:

Match(R,H)=γ1*Match(R,H,SYM)+γ2*Match(R,H,MOD)+γ3*Match(R,H,MOD)其中:γ1、γ2、γ3均为大于0小于1的权重系数,且满足:γ1+γ2+γ3=1;

(4)对于病历中的每个症状,输出与其最匹配的k个标准化HPO作为输出,供用户选择。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人和未来生物科技(长沙)有限公司,未经人和未来生物科技(长沙)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210102372.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top