[发明专利]一种电子病历的非结构化信息转化为结构化的泛化方法有效
| 申请号: | 201510429975.0 | 申请日: | 2015-07-21 |
| 公开(公告)号: | CN105159917B | 公开(公告)日: | 2018-08-03 |
| 发明(设计)人: | 夏小玲;张盈利 | 申请(专利权)人: | 东华大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 上海泰能知识产权代理事务所 31233 | 代理人: | 宋缨;孙健 |
| 地址: | 201620 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 电子 病历 结构 信息 转化 泛化 方法 | ||
本发明涉及一种电子病历的非结构化信息转化为结构化的泛化方法,包括以下步骤:采用样本学习的方法构建初始候选模式库;根据电子病历信息构建关于标本名的医疗词库;根据医疗词库中标本名,把电子病历语句切分成多个子句,其中,每个子句只包含一个标本的信息;采用分词提取工具对子句进行分词,生成子句序列;依据已经构建的初始候选模式库,从所述子句序列中提取新模式;将多个模式泛化成一个模式;根据得到的模式对文本信息进行信息抽取。本发明可以获得更快速、精确的抽取结果。
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种电子病历的非结构化信息转化为结构化的泛化方法。
背景技术
随着信息时代数据量的爆炸式增长,临床医疗数据也展现出其容量大、增速快、形式多样和潜在价值高的特点。而在临床医疗领域,以自然语言文本形式存在的非结构化数据占有重要地位。由于自然语言文本没有一个相对统一的结构,文档格式没有具体的限制,书写比较随意,因此对非结构化医疗数据的结构化信息提取变得十分困难,目前针对文本信息抽取常用的方法,主要是基于规则的抽取模型和基于统计的抽取模型两种。
基于统计的抽取模型的特点是信息抽取精度高,但是对于概率模型发训练过程复杂度高,耗时久。而基于规则的抽取模型的特点是抽取过程简单,但抽取结构过分依赖于规则制定或学习的成果。且这两种方法都是针对所有领域的文本信息,而没有考虑到医疗数据的特点,因此这两种方法很难获得快速精确的抽取结果。如何根据电子病历的特点进行信息抽取,特别是对抽取过程的优化,成为医疗数据分析过程中迫切需要解决的问题。
发明内容
本发明所要解决的技术问题是提供一种电子病历的非结构化信息转化为结构化的泛化方法,以获得更快速、精确的抽取结果。
本发明解决其技术问题所采用的技术方案是:提供一种电子病历的非结构化信息转化为结构化的泛化方法,包括以下步骤:
(1)采用样本学习的方法构建初始候选模式库;
(2)根据电子病历信息构建关于标本名的医疗词库;
(3)根据医疗词库中标本名,把电子病历语句切分成多个子句,其中,每个子句只包含一个标本的信息;
(4)采用分词提取工具对子句进行分词,生成子句序列;
(5)依据已经构建的初始候选模式库,从所述子句序列中提取新模式;
(6)将多个模式泛化成一个模式;
(7)根据得到的模式对文本信息进行信息抽取。
所述步骤(5)为:根据子句中的标本名,从初始候选模式库中选择标本名相同的模式,分别计算每一个模式与子句的相似度,取相似度最大值为CMax,对应模式为Pk,若CMax大于设定阈值,且标本名相同,则新模式为Pk;若标本名不同,则根据子句标本名构建与Pk同构的模式;若CMax小于设定阈值,则采用学习方法构建新模式。
所述步骤(5)和步骤(6)之间还包括进行模式优化的步骤,即若从所述步骤(5)产生的新模式来自初始候选模式库,则依据新模式提取子句信息,并与原子句序列比较提取出新模式未提取的词,依据该词在新模式中增加标本属性,标本属性序列与子句序列对应相同,从而优化新模式。
所述步骤(6)具体包括以下子步骤:
(61)对于模式X,把与其相似度大于泛化门限值的模式分为两类,一类是与模式X的标本名属于同一类的模式集P,一类是与模式X的标本名不属于同一类的模式集Q;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学,未经东华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510429975.0/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





