[发明专利]一种融合文本分类与词法分析的体检异常项归一化方法有效

专利信息
申请号: 202110095128.0 申请日: 2021-01-25
公开(公告)号: CN112837771B 公开(公告)日: 2022-09-13
发明(设计)人: 刘文丽;李向阳 申请(专利权)人: 山东浪潮智慧医疗科技有限公司
主分类号: G16H10/60 分类号: G16H10/60;G06F16/35;G06F40/284;G06F40/295;G06F40/30
代理公司: 济南信达专利事务所有限公司 37100 代理人: 阚恭勇
地址: 250100 山东省济南市中国(山东)自由贸易试验*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融合 文本 分类 词法 分析 体检 异常 归一化 方法
【说明书】:

发明提供一种融合文本分类与词法分析的体检异常项归一化方法,属于自然语言处理的语义相似度技术领域,本发明通过文本分类技术对待归一词与归一词库中的词进行二分类。然后,对分出的两类词分别激进型归一化处理。本发明仅根据自身词特征完成体检异常项到知识库实体的自动匹配,从而解决体检报告异常结论与知识库异常结论类型实体的实体链接问题。

技术领域

本发明涉及自然语言处理的语义相似度技术领域,尤其涉及一种融合文本分类与词法分析的体检异常项归一化方法。

背景技术

在智能体检报告分析业务中,健康干预是指根据体检中的各项目结果,为用户提供检查项医学解释与健康建议。该过程的难点在于,不同体检机构的体检异常结论书写规范不同,因此很难将异常结论与知识库中的异常结论类型实体进行链接。

目前业界常用的实体链接方法是有基于语义相似度的实体链接方法、基于图嵌入的实体链接方法。基于语义相似度的实体链接方法,是指首先通过前后文语义对各词进行表示,然后通过距离计算确定各词相似度情况。该方法的优势在于充分考虑到了各词的语义信息,但该方法使用的前提是需要有完成的前后文信息。因此不适用于体检异常项归一化场景。基于图嵌入的实体链接方法,是指首先根据知识图谱中实体周围节点,完成中心实体的向量表示,然后通过距离计算确定各词的相似度。由于该方法需要先构建完备的知识图谱,因此不适用于体检异常项归一化场景。

鉴于体检异常项归一化问题中的归一化文本名称多为独立词汇,无上下文关联。因此在词汇相似度计算时使用不依赖上下文的编辑距离优于使用word2vec与欧氏距离组合的方式计算词汇相似度。然而,单纯进行编辑距离归于化存在如下问题,如“白细胞偏高”与“红细胞偏高”、“白细胞异常”,从编辑距离角度来看,“白细胞偏高”与“红细胞偏高”相似度更高,但实质上却是两个不同的异常项,不可将两部分归入一类异常项。

发明内容

为了解决以上技术问题,本发明提供了一种融合文本分类与词法分析的体检异常项归一化方法,旨在不依赖上下文信息,仅根据自身词特征完成体检异常项到知识库实体的自动匹配,从而解决体检报告异常结论与知识库异常结论类型实体的实体链接问题。

本发明的技术方案是:

一种融合文本分类与词法分析的体检异常项归一化方法,首先通过文本分类技术对待归一词与归一词库中的词进行二分类。然后,对分出的两类词分别激进型归一化处理。注意,待归一词是指体检结论原文中的异常情况描述,如“白细胞偏高”。归一词是指需要归一化的所有异常描述。归一词库是指由全部归一词组成的集合。发明具体过程如下

1文本分类

体检异常项词是指体检报告中对体检异常情况的描述。因此上文所指归一词、待归一词均为体检异常项词。体检异常项词按结构来分,可分为两类。一类是完整异常项词,后文统称为“一类词”。另一类是“实体词+程度”词模式,后文统称为“二类词”。二类词包含实体词与程度词两部分。实体词包括体征词、检验指标词、身体部位词。程度词是指描述临床所见内容增长或降低的词。

文本分类任务,就是基于文本分类模型将获得的体检异常项词进行以上两类文本的分类。具体模型构建过程见7.

2一类词归一化

在经过文本分类任务后,若待归一词为一类词,将被划分入一类词归一化流程进行归一化处理。

2.1一类待归一词与一类归一词库说明

经过文本分类任务划分后,进入一类词归一化流程的待归一词称为一类待归一词。一类归一词库是指文本分类任务中划分为一类的归一词的集合。

2.2编辑距离比较

在文本分类任务后,若待归一词被划分为一类词,即归为一类待归一词后,即可进入编辑距离比较任务。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮智慧医疗科技有限公司,未经山东浪潮智慧医疗科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110095128.0/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top