[发明专利]一种电子病历高质短语抽取方法在审
申请号: | 201610836685.2 | 申请日: | 2016-09-21 |
公开(公告)号: | CN106649256A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 尚昭;金涛;王建民 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F19/00 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 廖元秋 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电子 病历 短语 抽取 方法 | ||
技术领域
本发明属于大数据检索技术领域,特别涉及在口腔健康数据服务平台中一种电子病历高质短语抽取的方法。
背景技术
随着互联网的高速发展和社会信息化步伐的加快,各行业的数据迅猛发展,人类已经步入大数据时代。对大数据的处理和分析,可以从中挖掘出有价值的信息,进而有效解决特定领域的问题。在医疗健康领域,“互联网+”概念的提出,使医疗信息化进程的不断推进,电子病历的使用正逐渐普及,电子记录的科研价值与应用价值也不断凸显出来。对电子病历进行高效准确的检索,可以为数据分析、决策支持等工作奠定良好的基础。
在各大医院,由于就诊患者众多,且每名患者就诊次数一般为两到三次甚至更多,电子病历数量为海量级。若能在很短的时间内,从海量电子病历中准确检索出所需的信息,将为医学领域带来极大的贡献。现有的检索系统主要为基于词库的关键词匹配和基于本体的语义查询。基于词库的关键词匹配为精确检索,检索出的结果包含与输入关键词完全匹配的内容;基于本体的语义查询为模糊检索,检索出的结果包含输入关键词的近义词、同义词等。在我国,检索系统目前主要采用第一种基于词库的关键词匹配方式,词库来源为术语词典和经验。
由于文本数据的复杂性,目前最常使用的对文档中所有出现的内容建立检索的方式是使用倒排索引技术。倒排索引,即对文档中的每个词,建立“词-文档”映射序列,当输入待检索词时,系统会定位到含有该词的文档并排序显示,以达到检索效果。已开放源代码的Lucene框架可用来直接建立倒排索引。
电子病历的全文检索效果往往依赖于中文分词是否精准。中文分词是将语句切分成能够表达完整语义的一个个词语。已有完整的中文分词工具可供直接使用,如斯坦福的分词工具,中科院的分词工具等。斯坦福的分词工具支持包含中文在内的多种语言,中科院的分词系统是目前中文分词效果最好的分词工具。同时,存在中文分词组件,如IKAnalyzer,Jieba等。在医疗领域,由于不同医院、不同医生用词习惯的个性化,无法使用统一的词典进行关键词匹配,这给病历分词增加了难度。
然而,电子病历中经常被检索的,往往是多个词语构成的短语。比如,输入“牙龈”,那么用户到底希望检索出“牙龈检索”、“牙龈红肿”还是“牙龈增生”的病历?因此,只对病历在词语层面进行分词是远远不够的,有必要将抽取上升到短语层面,以更好的满足检索需要。
高质短语满足四个特征:普遍性、一致性、信息量和完整性。目前存在一些指标,如点互信息PMI,K-L散度,倒排文档频率IDF等,用于衡量短语是否符合一致性和信息量特征。同时,使用K-means对短语进行聚类,更易根据聚类结果筛选高质短语。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种电子病历高质短语抽取的方法。本发明通过将检索从词语层面上升到短语层面,更好地满足医生的使用习惯与检索需要。
高质短语,即短语质量较高的短语。高质短语满足四个特征:普遍性、一致性、信息量和完整性。如,“牙龈红肿“这个短语在病历集中频繁出现,满足普遍性;“牙龈红肿”相较于“齿龈红肿”是更固定的搭配,更好的满足一致性;包含特定主题,短语具有信息量;表达语义完整,满足完整性。本发明认为,概率值大于0.9的短语为高质短语。短语质量由步骤2进行评估。
本发明提出的一种电子病历高质短语抽取的方法,其特征在于,该方法分为频繁短语挖掘、短语质量评估、短语切分和先验短语集更新四个阶段;具体包括以下步骤:
1)频繁短语挖掘包括以下步骤:
1-1)数据预处理:采用Jieba分词组件对电子病历进行中文分词处理,得到一系列词语;
1-2)基于原始频度,根据以往经验设定频度阈值,当词语的原始频度大于阈值时,认为该词语是频繁的;
1-3)将频繁词语组合成短语,当短语的原始频度大于阈值时,则该短语是频繁的;频繁的词语和短语,共同构成候选频繁短语;
2)短语质量评估包括以下步骤:
2-1)对候选频繁短语选取点互信息PMI,K-L散度,倒排文档频率IDF,以及停止词出现的频率次数和出现在引号、括号中的短语频次五个特征作为每个候选频繁短语的特征;
2-2)根据提取的五个特征,采用K-means方法对候选频繁短语进行聚类,将所有候选频繁短语聚为300类;
2-3)在每个聚类中挑选一个候选频繁短语,根据先验短语集对候选频繁短语进行打标处理,打标为“0”或“1”分值,1表示该短语既是候选频繁短语,又存在于先验短语集中;否则打标为0;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610836685.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:检索方法和检索装置
- 下一篇:一种语义段的转换方法及装置