[发明专利]一种文本处理方法及装置在审
申请号: | 201711435006.1 | 申请日: | 2017-12-26 |
公开(公告)号: | CN108153734A | 公开(公告)日: | 2018-06-12 |
发明(设计)人: | 刘宇;陈联忠;胡可云 | 申请(专利权)人: | 北京嘉和美康信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 疾病 相关信息 归类子句 映射关系 病历 文本处理 文本 语句 标点符号 疾病标志 有效地 归类 申请 标注 合并 统计 分析 | ||
1.一种文本处理方法,其特征在于,预先通过统计获取疾病和疾病相关信息之间的映射关系;
所述方法包括:
获取病历文本,所述病历文本中包括多个语句;
按照标点符号和/或所述语句中标注的疾病标志,对所述多个语句进行划分,得到多组待处理子句;
根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,得到多组归类子句,其中,一组归类子句对应一种疾病,不同组归类子句对应的疾病不同。
2.根据权利要求1所述的方法,其特征在于,若对所述多组待处理子句进行拆分,则所述根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,包括:
对所述多组待处理子句中的每组待处理子句进行分词,得到多个分词结果;
在所述每组待处理子句的多个分词结果中,确定属于疾病或疾病相关信息的分词结果;
针对所述每组待定处理子句,若该组待处理子句包括多个待处理子句,则判断该组待处理子句中属于疾病或疾病相关信息的分词结果是否对应同一种疾病;
若否,则按照疾病,对所述多个待处理子句进行拆分。
3.根据权利要求1所述的方法,其特征在于,若对所述多组待处理子句进行合并,则所述根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,包括:
对所述多组待处理子句中的每组待处理子句进行分词,得到多个分词结果;
在所述每组待处理子句的多个分词结果中,确定属于疾病或疾病相关信息的分词结果;
根据所述疾病和疾病相关信息之间的映射关系,以及所述每组待处理子句中属于疾病或疾病相关信息的分词结果,确定所述每组待处理子句对应的疾病;
将对应同一种疾病的多组待处理子句合并为一组归类子句。
4.根据权利要求1所述的方法,其特征在于,所述预先通过统计获取疾病和疾病相关信息之间的映射关系,包括:
获取统计疾病数据和统计疾病相关信息数据;
根据所述统计疾病数据和所述统计疾病相关信息数据,确定疾病与疾病相关信息之间的匹配概率;
根据所述匹配概率,建立所述疾病与所述疾病相关信息之间的映射关系。
5.根据权利要求1所述的方法,其特征在于,若按照所述语句中标注的疾病标志,对所述多个语句进行划分,则所述按照标点符号和/或所述语句中标注的疾病标志,对所述多个语句进行划分,得到多组待处理子句,包括:
对所述多个语句进行分词,得到多个分词结果;
确定所述多个分词结果中属于疾病的分词结果;
利用疾病标志对所述属于疾病的分词结果进行标注;
根据所述疾病标志对所述多个语句进行划分,得到多组待处理子句。
6.根据权利要求5所述的方法,其特征在于,若所述疾病标志包括相邻的第一疾病标志和第二疾病标志,且所述第一疾病标志位于所述第二疾病标志之前,则所述根据所述疾病标志对所述多个语句进行划分,包括:
将所述第一疾病标志和所述第二疾病标志之间的语句划分到所述第一疾病标志。
7.根据权利要求1所述的方法,其特征在于,在所述根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分之前,所述方法还包括:
判断所述多组待处理子句是否存在符合预设规则的待处理子句;
若是,则去除所述符合预设规则的待处理子句,得到去除所述符合预设规则的待处理子句的多组待处理子句;
则,所述根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,得到多组归类子句,包括:
根据所述疾病和疾病相关信息之间的映射关系,对所述去除所述符合预设规则的待处理子句的多组待处理子句进行合并和/或拆分,得到多组归类子句。
8.根据权利要求7所述的方法,其特征在于,所述符合预设规则的待处理子句包括:包含预设关键字的待处理子句和/或以“否定”两字开头的待处理子句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘉和美康信息技术有限公司,未经北京嘉和美康信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711435006.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:评论质量的分类方法及装置
- 下一篇:一种近义词的获取方法及系统