[发明专利]一种基于多维度信息检索的疾病对码方法在审
申请号: | 201810216439.6 | 申请日: | 2018-03-16 |
公开(公告)号: | CN109243599A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 汤潼 | 申请(专利权)人: | 申朴信息技术(上海)股份有限公司 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;G06F16/332;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200122 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 对码 多维度信息 目标疾病 分词器 疾病 检索 同音字 自然语言处理技术 自然语言处理 自定义词库 分词结果 评估目标 标准库 多维度 相似度 错别字 同音 分词 维度 兼容 评估 | ||
本发明公开了一种基于多维度信息检索的疾病对码方法,该方法涉及自然语言处理领域。该方法包括以下步骤:步骤1:采用基于自定义词库的分词器对目标疾病名词分词,所述分词器兼容同音字错误,解决同音错别字问题。步骤2:针对步骤1的分词结果基础上,进行多维度评估得出目标疾病名词所属的类别。该方法采用自然语言处理技术,从多个维度评估目标疾病名词与标准库的相似度,从而解决传统对码工作中效率低、准确性低的问题。
技术领域
本发明涉及一种自然语言处理技术领域,尤其涉及一种基于多维度信息检索的疾病对码方法。
背景技术
随着自然语言处理技术的快速发展,我们希望借助计算机的智能技术来代替繁杂的疾病对码工作。疾病对码就是将给出的疾病名称归类到标准疾病分类中,在该技术的研究中,我们采用标准疾病库。在传统的疾病对码工作中,要么采用人工对码,要么采用字符串匹配技术,其效率和准确性都非常低。
发明内容
本发明为了解决现有技术的上述不足,提供了一种基于多维度信息检索的疾病对码方法。
本发明的上述目的通过以下的技术方案来实现:一种基于多维度信息检索的疾病对码方法,包括以下步骤:
(1)采用基于自定义词库的分词器对目标疾病名词分词,所述分词器兼容同音字错误,解决同音错别字问题;
(2)针对步骤(1)的分词结果基础上,进行多维度评估得出目标疾病名词所属的类别。
步骤(1)中所述的分词器包含有分词词库、同义词库、停用词库、维度名词库和主疾病名词库;通过分词器提取目标疾病名词的主疾病维度关键词、解剖部位关键词。
步骤(2)中所述的多维度评估包含有文本相似度维度、主疾病维度和解剖部位维度,文本相似度维度评估采用了TF-IDF/BM25模型和nGram模型评估目标疾病名词和标准疾病库的相似度。
步骤(2)中“多维度评估得出目标疾病名词所属类别”的方法包括以下步骤:
(2.1)文本相似度得分评估:
(2.1.1)采用拼音分词器对目标疾病名词分词,可以解决同音错别字问题;
(2.1.2)采用TF-IDF/BM25模型以及nGram模型对目标疾病名词和标准疾病库相似度打分;
(2.2)主疾病名词维度相关性评估:
(2.2.1)采用包含自定义主疾病名词库的分词器提取目标疾病名词的主疾病维度关键词;
(2.2.2)按照主疾病的具体程度,构建维度关键词,查询匹配关键词后积分;
(2.3)解剖部位维度相关性评估:
(2.3.1)采用包含自定义解剖部位名词库的分词器提取目标疾病名词的解剖部位维度关键词;
(2.3.2)按照解剖部位的具体程度,构建维度关键词,查询匹配关键词后积分;
(2.4)按照Score = S1+S2+S3的多维度评分公式计算总得分,其中,S1为文本相似度得分,S2为主疾病维度积分,S3为解剖部位维度积分;标准疾病库中得分最高的条目即为目标疾病名词所属的类别。
本发明通过多个维度评估目标疾病名词与标准疾病库条目的关联度,最后计算得出关联度最高的条目即为疾病对码的结果。
本发明与现有技术相比的优点是:本发明采用多维度排序算法评估目标疾病名词的类别,很好的弥补了传统字符串匹配单一方式缺陷,获得更高的准确性。
具体实施方式
下面结合实施例对本发明进一步详述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于申朴信息技术(上海)股份有限公司,未经申朴信息技术(上海)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810216439.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种远程监护呼叫方法及系统
- 下一篇:用于输出信息的方法和装置