[发明专利]一种基于多维度信息检索的疾病对码方法在审
申请号: | 201810216439.6 | 申请日: | 2018-03-16 |
公开(公告)号: | CN109243599A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 汤潼 | 申请(专利权)人: | 申朴信息技术(上海)股份有限公司 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;G06F16/332;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200122 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 对码 多维度信息 目标疾病 分词器 疾病 检索 同音字 自然语言处理技术 自然语言处理 自定义词库 分词结果 评估目标 标准库 多维度 相似度 错别字 同音 分词 维度 兼容 评估 | ||
1.一种基于多维度信息检索的疾病对码方法,其特征在于:包括以下步骤:
(1)采用基于自定义词库的分词器对目标疾病名词分词,所述分词器兼容同音字错误,解决同音错别字问题;
(2)针对步骤(1)的分词结果基础上,进行多维度评估得出目标疾病名词所属的类别。
2.根据权利要求1所述的一种基于多维度信息检索的疾病对码方法,其特征在于:步骤(1)中所述的分词器包含有分词词库、同义词库、停用词库、维度名词库和主疾病名词库;通过分词器提取目标疾病名词的主疾病维度关键词、解剖部位关键词。
3.根据权利要求1所述的一种基于多维度信息检索的疾病对码方法,其特征在于:步骤(2)中所述的多维度评估包含有文本相似度维度、主疾病维度和解剖部位维度,文本相似度维度评估采用了TF-IDF/BM25模型和nGram模型评估目标疾病名词和标准疾病库的相似度。
4.根据权利要求1所述的一种基于多维度信息检索的疾病对码方法,其特征在于:步骤(2)中“多维度评估得出目标疾病名词所属类别”的方法包括以下步骤:
(2.1)文本相似度得分评估:
(2.1.1)采用拼音分词器对目标疾病名词分词,可以解决同音错别字问题;
(2.1.2)采用TF-IDF/BM25模型以及nGram模型对目标疾病名词和标准疾病库相似度打分;
(2.2)主疾病名词维度相关性评估:
(2.2.1)采用包含自定义主疾病名词库的分词器提取目标疾病名词的主疾病维度关键词;
(2.2.2)按照主疾病的具体程度,构建维度关键词,查询匹配关键词后积分;
(2.3)解剖部位维度相关性评估:
(2.3.1)采用包含自定义解剖部位名词库的分词器提取目标疾病名词的解剖部位维度关键词;
(2.3.2)按照解剖部位的具体程度,构建维度关键词,查询匹配关键词后积分;
(2.4)按照Score = S1+S2+S3的多维度评分公式计算总得分,其中,S1为文本相似度得分,S2为主疾病维度积分,S3为解剖部位维度积分;标准疾病库中得分最高的条目即为目标疾病名词所属的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于申朴信息技术(上海)股份有限公司,未经申朴信息技术(上海)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810216439.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种远程监护呼叫方法及系统
- 下一篇:用于输出信息的方法和装置