[发明专利]疾病术语的词处理方法、装置及计算机设备在审
申请号: | 201711107945.3 | 申请日: | 2017-11-10 |
公开(公告)号: | CN108021553A | 公开(公告)日: | 2018-05-11 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 北京颐圣智能科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06K9/62 |
代理公司: | 北京华进京联知识产权代理有限公司 11606 | 代理人: | 孙岩 |
地址: | 100020 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 疾病 术语 处理 方法 装置 计算机 设备 | ||
本发明涉及一种疾病术语的词处理方法,包括:切分待处理的疾病名称,得到多个疾病分词;将所述多个疾病分词在标准疾病语料库中进行匹配,得到候选疾病术语集合;获取各个候选疾病术语与疾病名称的相似度,并按照相似度对候选疾病术语集合中的候选疾病术语进行排序;选择候选疾病术语集合中,排位前列的候选疾病术语,作为所述疾病名称的词处理疾病术语。上述疾病名称的词处理方法,能够对疾病名称进行自动化规范。本发明还涉及一种疾病术语的词处理装置及设备。
技术领域
本发明涉及医疗领域,特别是涉及一种疾病术语的词处理方法、装置及计算机设备。
背景技术
目前,随着医学技术、计算机技术的发展,与疾病相关的文献和数据越来越多,面对这些数据,需要根据不同的疾病对这些数据进行区分,以用于快速的查询及诊疗数据的词处理管理。
国际疾病分类(International Classification of disease,ICD)是依据疾病的特征,将疾病分门别类,给予疾病标准名称,并用编码的方法来表示疾病的系统。为了进行疾病统计、相关研究以及国际交流,该系统的设立希望医生在录入患者的疾病信息时可以录入标准的疾病名称。
但是,在实际录入时,由于医生工作繁忙以及学习背景的不同,会大量使用简写、缩写、英文、连写等不规范疾病术语来快速录入疾病,偶尔也会出现包含错别字的疾病名称,例如在录入疾病时,使用“慢阻肺”而非“慢性阻塞性肺疾病”,难以自动识别出是何种疾病,不利于疾病的统计及研究。如何对这些不规范疾病术语进行规范处理,以便于后续疾病的研究,成为亟待解决的问题。
发明内容
基于此,有必要提供一种疾病术语的词处理方法、装置及计算机设备。
一种疾病术语的词处理方法,其中,所述方法包括:
切分待处理的疾病名称,得到多个疾病分词;
将所述多个疾病分词在标准疾病语料库中进行匹配,得到候选疾病术语集合;
获取所述候选疾病术语集合中的各个候选疾病术语与所述待处理的疾病名称之间的相似度,并按照相似度对候选疾病术语集合中的候选疾病术语进行排序;
选择候选疾病术语集合中,预设个数的排序靠前的候选疾病术语,作为所述疾病名称的规范化疾病术语。
作为其中一个实施例,所述将所述多个疾病分词在标准疾病语料库中进行匹配,得到候选疾病术语集合的步骤包括:
获取所述待处理的疾病名称中每个字符的首字母组成的首字母字符串;
在标准疾病语料库中,获取与所述首字母字符串匹配的标准疾病名称的集合作为初选疾病术语集合。
作为其中一个实施例,所述将所述多个疾病分词在标准疾病语料库中进行匹配,得到候选疾病术语集合的步骤还包括:
获取所述多个疾病分词中的部位信息;
根据所述部位信息,在所述初选疾病术语集合中进行筛选,获得与所述部位匹配的初选疾病术语作为复选疾病术语集合。
作为其中一个实施例,所述将所述多个疾病分词在标准疾病语料库中进行匹配,得到候选疾病术语集合的步骤还包括:
获取所述多个疾病分词中的疾病核心词;
将所述疾病核心词在所述复选疾病术语集合中进行筛选,获得与所述疾病核心词匹配的复选疾病术语,作为所述候选疾病术语。
作为其中一个实施例,所述获取多个候选疾病术语与疾病名称的相似度,并按照相似度对所述候选疾病术语集中的候选疾病术语进行排序的步骤包括:
获取所述疾病名称与每一候选疾病术语的向量空间余弦相似度、编辑距离相似度以及字符重合度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京颐圣智能科技有限公司,未经北京颐圣智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711107945.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于GPRS的多通信类型中继器
- 下一篇:一种开关电器