[发明专利]病历结构化的处理方法和装置在审
申请号: | 201710114644.7 | 申请日: | 2017-02-28 |
公开(公告)号: | CN106897568A | 公开(公告)日: | 2017-06-27 |
发明(设计)人: | 邓侃;孙俊;邱鹏飞;李丕勋 | 申请(专利权)人: | 北京大数医达科技有限公司 |
主分类号: | G06F19/00 | 分类号: | G06F19/00;G06F17/21;G06F17/27 |
代理公司: | 北京品源专利代理有限公司11332 | 代理人: | 孟金喆,胡彬 |
地址: | 100193 北京市海淀区东北旺*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 病历 结构 处理 方法 装置 | ||
1.一种病历结构化的处理方法,其特征在于,包括:
获取病历样本中的至少一个自然语句,根据预设规则获取所述自然语句中的医学实体,并确定出各医学实体之间的依存关系;
在预先建立的医学知识库中,获取与所述医学实体所对应的医学标准化用语以及各所述医学标准化用语之间的拓扑关系;
基于所述医学标准化用语、所述拓扑关系以及所述依存关系,将所述自然语句根据预设的语句结构转化成形式化语句。
2.根据权利要求1所述的方法,其特征在于,所述根据预设规则获取所述自然语句中的医学实体包括:
将所述自然语句进行分词后,在预先建立好的标准医学术语库中,查询与所述自然语句中各词语对应的医学术语,作为所述自然语句中的医学实体。
3.根据权利要求2所述的方法,其特征在于,在所述根据预设规则获取所述自然语句中的医学实体之前,还包括:
基于预先建立的医学词向量词库将所述自然语句分词后的词语转换成词向量,并基于所述词向量获取各词语的第一语义向量;
获取各医学术语的第二语义向量,并计算各所述第一语义向量与各所述第二语义向量之间的余弦距离;
根据所述余弦距离确定所述自然语句中的各词语与所述各医学术语之间的对应关系,并基于所述对应关系建立所述标准医学术语库。
4.根据权利要求3所述的方法,其特征在于,所述基于所述词向量获取各词语的第一语义向量包括:
根据所述自然语句中各词语的词向量与各所述词语相邻的词语的词向量,采用时间递归神经网络模型计算出各词语的第一语义向量。
5.根据权利要求3所述的方法,其特征在于,在所述基于预先建立的医学词向量词库将所述自然语句分词后的词语转换成词向量之前,还包括:
采集历史病历样本,计算所述历史病历样本中的每个字的字向量;
基于分词器将所述历史病历样本中的每个历史语句进行分词,并根据所述字向量计算分词后各历史词语的词向量;
根据各所述历史词语的词向量建立所述医学词向量词库。
6.根据权利要求3-5任一所述的方法,其特征在于,所述确定出各医学实体之间的依存关系包括:
根据所述自然语句中各词语的第一语义向量以及所述各词语的第一语义向量之间的关联强度,采用注意力模型确定出所述自然语句中各词语之间是否存在依存关系;
若所述依存关系存在,则基于分类器模型确定出所述依存关系的关系类型。
7.一种病历结构化的处理装置,其特征在于,包括:
医学实体获取模块,用于获取病历样本中的至少一个自然语句,根据预设规则获取所述自然语句中的医学实体,并确定出各医学实体之间的依存关系;
医学标准化用语获取模块,用于在预先建立的医学知识库中,获取与所述医学实体所对应的医学标准化用语以及各所述医学标准化用语之间的拓扑关系;
形式化语句转化模块,用于基于所述医学标准化用语、所述拓扑关系以及所述依存关系,将所述自然语句根据预设的语句结构转化成形式化语句。
8.根据权利要求7所述的装置,其特征在于,所述医学实体获取模块用于:
将所述自然语句进行分词后,在预先建立好的标准医学术语库中,查询与所述自然语句中各词语对应的医学术语,作为所述自然语句中的医学实体。
9.根据权利要求8所述的装置,其特征在于,还包括:
第一语义向量获取模块,用于在所述根据预设规则获取所述自然语句中的医学实体之前,基于预先建立的医学词向量词库将所述自然语句分词后的词语转换成词向量,并基于所述词向量获取各词语的第一语义向量;
余弦距离计算模块,用于获取各医学术语的第二语义向量,并计算各所述第一语义向量与各所述第二语义向量之间的余弦距离;
标准医学术语库建立模块,用于根据所述余弦距离确定所述自然语句中的各词语与所述各医学术语之间的对应关系,并基于所述对应关系建立所述标准医学术语库。
10.根据权利要求9所述的装置,其特征在于,所述医学实体获取模块还用于:
根据所述自然语句中各词语的第一语义向量以及所述各词语的第一语义向量之间的关联强度,采用注意力模型确定出所述自然语句中各词语之间是否存在依存关系;
若所述依存关系存在,则基于分类器模型确定出所述依存关系的关系类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大数医达科技有限公司,未经北京大数医达科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710114644.7/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用