[发明专利]文本信息处理方法、系统、介质和设备有效

申请号：	202110765335.2	申请日：	2021-07-07
公开（公告）号：	CN113254658B	公开（公告）日：	2021-12-21
发明（设计）人：	姚娟娟;钟南山;樊代明	申请（专利权）人：	明品云（北京）数据科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/335;G06N3/04;G06N3/08
代理公司：	上海汉之律师事务所 31378	代理人：	冯华
地址：	102400 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本信息处理方法系统介质设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种文本信息处理方法、系统、介质和设备，在所述文本信息处理方法中，在对文本信息进行预处理得到数据预处理集合的基础上，根据数据参考集合，基于关键词匹配对数据预处理集合进行第一次筛选，基于深度学习对数据预处理集合进行第二次筛选，结合前后两次筛选的数据集合生成处理后的文本信息，能有效防止文本信息的误筛，提高了文本信息的处理准确率和处理效率；每个数据集合均包括相互之间存在映射关系的专业名词集合、形容词集合以及参数集合，在每个子集合单独对比筛选的基础上，结合存在映射关系的其他子集合的筛选结果的辅助验证，能进一步提高文本信息的筛选效率和准确率。

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种文本信息处理方法、系统、介质和设备。

背景技术

在自然语言处理中，通常会涉及多种输入途径和多种用途的文本，就以医疗数据而言，档案室老旧的纸质文本信息，各个医院或者平台的电子病历信息，现有的医疗数据越来越繁杂，且不同医院或者平台对医疗数据的定义、记载方式等存在差异，对应的诊断文本存在着特定用语、同义词表达、缩略语以及拼写和打字错误等造成诊断文本不一致的问题。

因此，如何对繁复的医学文本信息进行有效地归纳总结，提高医学文本信息的处理效率与准确率是目前亟需解决的问题。

发明内容

鉴于以上现有技术存在的问题，本发明提供一种文本信息的处理技术方案，用于解决据上述技术问题。

为了实现上述目的及其他目的，本发明采用的技术方案如下。

一种文本信息处理方法，包括：

获取待处理的文本信息；

对所述文本信息进行预处理，生成多个词语及参数；

对多个所述词语及所述参数进行分类提取，获取对应的数据预处理集合，所述数据预处理集合包括相互之间存在映射关系的专业名词预处理集合、专业名词描述预处理集合以及参数预处理集合；

获取相关领域的数据参考集合，所述数据参考集合包括相互之间存在映射关系的专业名词参考集合、专业名词描述参考集合以及参数参考集合；

根据所述数据参考集合，基于关键词匹配，对所述数据预处理集合进行第一次筛选，获取第一数据集合，所述第一数据集合包括相互之间存在映射关系的第一专业名词集合、第一专业名词描述集合以及第一参数集合；

根据所述数据参考集合，基于深度学习，对所述数据预处理集合进行第二次筛选，获取第二数据集合，所述第二数据集合包括相互之间存在映射关系的第二专业名词集合、第二专业名词描述集合以及第二参数集合；

根据所述第一数据集合与所述第二数据集合，输出处理后的文本信息。