[发明专利]一种融合文本分类与词法分析的体检异常项归一化方法有效

申请号：	202110095128.0	申请日：	2021-01-25
公开（公告）号：	CN112837771B	公开（公告）日：	2022-09-13
发明（设计）人：	刘文丽;李向阳	申请（专利权）人：	山东浪潮智慧医疗科技有限公司
主分类号：	G16H10/60	分类号：	G16H10/60;G06F16/35;G06F40/284;G06F40/295;G06F40/30
代理公司：	济南信达专利事务所有限公司 37100	代理人：	阚恭勇
地址：	250100 山东省济南市中国（山东）自由贸易试验***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融合文本分类词法分析体检异常归一化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种融合文本分类与词法分析的体检异常项归一化方法，其特征在于，

将体检异常项词分为两类；一类词和二类词；

首先通过文本分类对待归一词与归一词库中的词进行一类词和二类词的划分；然后，对分出的两类词分别归一化处理；其中，待归一词是指体检结论原文中的异常情况描述；归一词是指需要归一化的所有异常描述，归一词库是指由全部归一词组成的集合；

在经过文本分类任务后，若待归一词为一类词，将被划分入一类词归一化流程进行归一化处理；

在经过文本分类任务后，若待归一词为二类词，将被划分入二类词归一化流程进行归一化处理；

一类词归一化流程具体步骤如下：

1.1）一类词归一化，在经过文本分类后，若待归一词为一类词，将被划分入一类词归一化流程进行归一化处理；

1.2）经过文本分类任务划分后，进入一类词归一化流程的待归一词列为一类待归一词；文本分类任务中划分为一类的归一词的集合列为一类归一词库；

1.3）编辑距离比较

首先计算一类待归一词与一类归一词库中各词的编辑距离，然后选择编辑距离最小的一个归一词作为该一类待归一词所对应的归一词，进行输出；

若待归一词被划分为一类词，即归为一类待归一词后，即可进入编辑距离比较任务；

二类词归一化流程具体步骤如下：

2.1）在经过文本分类任务后，若待归一词为二类词，将被划分入二类词归一化流程进行归一化处理；

2.2）经过文本分类任务划分后，进入二类词归一化流程的待归一词列为二类待归一词1；经过文本分类任务划分后，进入二类词归一化流程的归一词列为二类归一词1；由二类归一词1组成的集合为二类归一词1库；

2.3）词法分析

通过词法分析模型对文本分类结果中的二类词进行实体词部分与程度词部分的识别；

2.4）经过词法分析任务后，二类待归一词1与二类归一词1库中的二类归一词1将被拆分成“实体词-程度词”模式；其中，二类待归一词1转化为二类待归一词2；二类归一词1转化为二类归一词2；二类归一词2组成的集合为二类归一词2库；

2.5）实体词编辑距离比较

2.6）经过实体词编辑距离比较后，从二类归一词2库中筛选出的实体词所对应的二类归一词2组成的库为二类归一词3库；二类归一词3库内的词也自动更改为二类归一词3；

2.7）程度词编码

程度词分类库，分为积极类程度词与消极类程度词；

依据程度词分类库，将二类待归一词2与二类归一词3库中的二类归一词3中的程度词部分进行编码处理；将消极程度词编码为11，积极程度词编码为22；经过程度词编码后二类待归一词2与二类归一词3将被处理成“实体词-11”或“实体词-22”；

2.8）经过程度词编码后的二类待归一词2列为二类待归一词3，经过程度词编码后的二类归一词3列为二类归一词4；二类归一词4组成的集合为二类归一词4库；

2.9）程度词编辑距离比较

首先，逐一计算二类待归一词3与二类归一词4库中各词之间的编辑距离；然后，从二类归一词4库中筛选出编辑距离最小的程度词所对应的二类归一词4，并将筛选出的二类归一词4所对应的归一词库中的归一词为最终的归一词。

2.根据权利要求1所述的方法，其特征在于，

步骤2.3）模型的输入为文本分类结果的二类词，包括二类待归一词1以及二类归一词1库中的词；输出为以上输入各词的实体词部分与程度词部分，之间用“-”间隔。

3.根据权利要求1所述的方法，其特征在于，

步骤2.5）实体词编辑距离比较流程，首先，将二类待归一词2中的实体词部分与二类归一词2库中词的实体词部分逐一进行编辑距离计算；然后，从二类归一词2库中筛选出编辑距离最小的实体词。

4.根据权利要求1所述的方法，其特征在于，

词法分析任务对判别出的二类词进行处理，分为分字与词性标注两部分；

分字

分字任务可使用tokenize分字工具，并借助BERT内的词典完成分字；

词性标注

词性标注任务是指对分出的字进行实体词与程度词的BIO词性标注；实体词开端为B-S,实体词中间字为I-S,程度词开端为B-C,程度词中间字为I-C，其他部分字标注为O。

5.根据权利要求4所述的方法，其特征在于，

模型构建流程如下

1）样本采集：从当前数据库中，随机采集二类词1000条，并对样本进行分字以及BIO词性标注；

2）模型构建：在此选用NLP模型完成模型构建任务；

3）模型应用

在完成模型构建后，分别对上步中判别出的二类待归一词1与二类归一词1库中的二类词进行分词与词性标注工作；确定每个词的实体词部分与程度词部分内容。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东浪潮智慧医疗科技有限公司，未经山东浪潮智慧医疗科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110095128.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种融合文本分类与词法分析的体检异常项归一化方法有效

专利文献下载