[发明专利]文本信息处理方法、系统、介质和设备有效
申请号: | 202110765335.2 | 申请日: | 2021-07-07 |
公开(公告)号: | CN113254658B | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 姚娟娟;钟南山;樊代明 | 申请(专利权)人: | 明品云(北京)数据科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/335;G06N3/04;G06N3/08 |
代理公司: | 上海汉之律师事务所 31378 | 代理人: | 冯华 |
地址: | 102400 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 信息处理 方法 系统 介质 设备 | ||
本发明提出一种文本信息处理方法、系统、介质和设备,在所述文本信息处理方法中,在对文本信息进行预处理得到数据预处理集合的基础上,根据数据参考集合,基于关键词匹配对数据预处理集合进行第一次筛选,基于深度学习对数据预处理集合进行第二次筛选,结合前后两次筛选的数据集合生成处理后的文本信息,能有效防止文本信息的误筛,提高了文本信息的处理准确率和处理效率;每个数据集合均包括相互之间存在映射关系的专业名词集合、形容词集合以及参数集合,在每个子集合单独对比筛选的基础上,结合存在映射关系的其他子集合的筛选结果的辅助验证,能进一步提高文本信息的筛选效率和准确率。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本信息处理方法、系统、介质和设备。
背景技术
在自然语言处理中,通常会涉及多种输入途径和多种用途的文本,就以医疗数据而言,档案室老旧的纸质文本信息,各个医院或者平台的电子病历信息,现有的医疗数据越来越繁杂,且不同医院或者平台对医疗数据的定义、记载方式等存在差异,对应的诊断文本存在着特定用语、同义词表达、缩略语以及拼写和打字错误等造成诊断文本不一致的问题。
因此,如何对繁复的医学文本信息进行有效地归纳总结,提高医学文本信息的处理效率与准确率是目前亟需解决的问题。
发明内容
鉴于以上现有技术存在的问题,本发明提供一种文本信息的处理技术方案,用于解决据上述技术问题。
为了实现上述目的及其他目的,本发明采用的技术方案如下。
一种文本信息处理方法,包括:
获取待处理的文本信息;
对所述文本信息进行预处理,生成多个词语及参数;
对多个所述词语及所述参数进行分类提取,获取对应的数据预处理集合,所述数据预处理集合包括相互之间存在映射关系的专业名词预处理集合、专业名词描述预处理集合以及参数预处理集合;
获取相关领域的数据参考集合,所述数据参考集合包括相互之间存在映射关系的专业名词参考集合、专业名词描述参考集合以及参数参考集合;
根据所述数据参考集合,基于关键词匹配,对所述数据预处理集合进行第一次筛选,获取第一数据集合,所述第一数据集合包括相互之间存在映射关系的第一专业名词集合、第一专业名词描述集合以及第一参数集合;
根据所述数据参考集合,基于深度学习,对所述数据预处理集合进行第二次筛选,获取第二数据集合,所述第二数据集合包括相互之间存在映射关系的第二专业名词集合、第二专业名词描述集合以及第二参数集合;
根据所述第一数据集合与所述第二数据集合,输出处理后的文本信息。
可选地,对所述文本信息进行预处理时,至少对所述文本信息依次进行数据清洗、标点符号去除、切词、停用词去除以及重复词去除。
可选地,对多个所述词语及所述参数进行分类提取的步骤包括:
对所述词语进行词性标注;
根据所述词语的词性和上下文关系,对多个所述词语及所述参数进行分类提取,获取所述数据预处理集合。
可选地,根据所述数据参考集合,基于关键词匹配,对所述数据预处理集合进行第一次筛选的步骤包括:
针对所述专业名词预处理集合中的第a个元素,依次计算其与所述专业名词参考集合中的第b个元素之间的第一词串距离S1(a,b),得到第一词串距离集合S1(a);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于明品云(北京)数据科技有限公司,未经明品云(北京)数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110765335.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种CDN自适应带宽突发处理方法
- 下一篇:一种光模块散热系统、光模块