[发明专利]一种文本处理方法及装置在审
申请号: | 201711435006.1 | 申请日: | 2017-12-26 |
公开(公告)号: | CN108153734A | 公开(公告)日: | 2018-06-12 |
发明(设计)人: | 刘宇;陈联忠;胡可云 | 申请(专利权)人: | 北京嘉和美康信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 疾病 相关信息 归类子句 映射关系 病历 文本处理 文本 语句 标点符号 疾病标志 有效地 归类 申请 标注 合并 统计 分析 | ||
本申请实施例公开了一种文本处理方法,预先通过统计获取疾病和疾病相关信息之间的映射关系;所述方法包括:获取病历文本;按照标点符号和/或所述语句中标注的疾病标志,对所述多个语句进行划分,得到多组待处理子句;根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,得到多组归类子句。本申请可以根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行归类,使得对应同一种疾病的多组待处理子句可以归为一组归类子句,且不同组归类子句对应的疾病不同,从而可以从病历文本中,准确地获取到疾病与其对应的疾病相关信息,进而可以实现对病历文本进行有效地分析、处理。
技术领域
本申请涉及大数据领域,尤其涉及一种文本处理方法及装置。
背景技术
电子病历(Electronic Medical Record,简称EMR)也叫计算机化的病案系统或称基于计算机的病人记录。它是用电子设备(计算机、健康卡等)保存、管理、传输和重现的数字化的病人的医疗记录,取代手写纸张病历。它的内容包括纸张病历的所有信息,例如主诉、现病史、既往史、个人史、婚育史和家族史等。
由于电子病历是最重要的医疗数据,有很多分析和应用都是建立在电子病历基础上的,例如根据电子病历对疾病及其相关信息进行检索,所以从电子病历的病历文本中获取疾病及其相关信息是非常关键的。疾病相关信息是对疾病进行诊断和治疗过程中所涉及到的医疗信息,例如疾病的症状、所采用的手术和药品、所进行的检查和检验等,疾病相关信息。
现有技术基于支持度和置信度来获取上述信息。具体为,假设某个疾病和其某个或某些疾病相关信息是具有映射关系的,那么该映射关系的支持度为同时包含该疾病和该疾病相关信息的病历数量与所有病历数量之间的比值,该映射关系的置信度为同时包含该疾病和该疾病相关信息的病历数量与包含该疾病的病历数量之间的比值。通过设定支持度阈值和置信度阈值,并判断计算得到的上述映射关系的支持度是否大于或等于该支持度阈值,且其置信度是否大于或等于置信度阈值,如果是,那么认为该疾病和该疾病相关信息之间的映射关系是成立的,从而可以从病历文本中提取出该疾病和该疾病相关信息。
然而,当病历文本中多个疾病和多个疾病相关信息同时出现的概率较大时,由于这些疾病和疾病相关信息之间映射关系的支持度和置信度都相同,因而无法区分出哪些疾病和哪些疾病相关信息是真正相对应的。所以,基于支持度和置信度从病历文本中获取疾病和疾病相关信息的方法并不准确。
发明内容
为了解决现有技术基于支持度和置信度从病历文本中获取疾病和疾病相关信息的方法并不准确的问题,本申请提供了一种文本处理方法及装置,以实现可以从病历文本中,准确地获取到疾病与其对应的疾病相关信息,进而可以实现对病历文本进行有效地分析、处理。
第一方面,本申请提供了一种文本处理方法,预先通过统计获取疾病和疾病相关信息之间的映射关系;
所述方法包括:
获取病历文本,所述病历文本中包括多个语句;
按照标点符号和/或所述语句中标注的疾病标志,对所述多个语句进行划分,得到多组待处理子句;
根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,得到多组归类子句,其中,一组归类子句对应一种疾病,不同组归类子句对应的疾病不同。
可选的,若对所述多组待处理子句进行拆分,则所述根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,包括:
对所述多组待处理子句中的每组待处理子句进行分词,得到多个分词结果;
在所述每组待处理子句的多个分词结果中,确定属于疾病或疾病相关信息的分词结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘉和美康信息技术有限公司,未经北京嘉和美康信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711435006.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:评论质量的分类方法及装置
- 下一篇:一种近义词的获取方法及系统