[发明专利]文本信息处理方法、系统、介质和设备有效

专利信息
申请号: 202110765335.2 申请日: 2021-07-07
公开(公告)号: CN113254658B 公开(公告)日: 2021-12-21
发明(设计)人: 姚娟娟;钟南山;樊代明 申请(专利权)人: 明品云(北京)数据科技有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/335;G06N3/04;G06N3/08
代理公司: 上海汉之律师事务所 31378 代理人: 冯华
地址: 102400 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 信息处理 方法 系统 介质 设备
【权利要求书】:

1.一种文本信息处理方法,其特征在于,包括:

获取待处理的文本信息;

对所述文本信息进行预处理,生成多个词语及参数;

对多个所述词语及所述参数进行分类提取,获取对应的数据预处理集合,所述数据预处理集合包括相互之间存在映射关系的专业名词预处理集合、专业名词描述预处理集合以及参数预处理集合;

获取相关领域的数据参考集合,所述数据参考集合包括相互之间存在映射关系的专业名词参考集合、专业名词描述参考集合以及参数参考集合;

根据所述数据参考集合,基于关键词匹配,对所述数据预处理集合进行第一次筛选,获取第一数据集合,所述第一数据集合包括相互之间存在映射关系的第一专业名词集合、第一专业名词描述集合以及第一参数集合;

根据所述数据参考集合,基于深度学习,对所述数据预处理集合进行第二次筛选,获取第二数据集合,所述第二数据集合包括相互之间存在映射关系的第二专业名词集合、第二专业名词描述集合以及第二参数集合;

根据所述第一数据集合与所述第二数据集合,输出处理后的文本信息;

其中,所述根据所述数据参考集合,基于关键词匹配,对所述数据预处理集合进行第一次筛选的步骤,包括:

针对所述专业名词预处理集合中的第a个元素,依次计算其与所述专业名词参考集合中的第b个元素之间的第一词串距离S1(a,b),得到第一词串距离集合S1(a);

若所述第一词串距离集合S1(a)的元素取值包含零,则保留第a个元素,将其加入所述第一专业名词集合,并将所述专业名词描述预处理集合中与其对应的元素加入所述第一专业名词描述集合,将所述参数预处理集合中与其对应的元素加入所述第一参数集合;

若所述第一词串距离集合S1(a)的元素取值不包含零,则进一步判断所述第一词串距离集合S1(a)中是否存在取值小于第一阈值的元素;

若所述第一词串距离集合S1(a)中至少有一个元素的取值小于所述第一阈值,则按照从小到大的顺序对所述第一词串距离集合S1(a)中小于第一阈值的元素进行统计排序,得到第一词串距离筛选集合S10(a);

针对第一词串距离筛选集合S10(a)中的元素,从第一个元素开始,依次计算所述专业名词描述预处理集合中对应的第i个元素与所述专业名词描述参考集合中对应的第j个元素之间的第二词串距离S2(i,j),得到第二词串距离集合S2(i);

若所述第二词串距离集合S2(i)的元素取值包含零,则进一步判断所述第二词串距离集合S2(i)中取值为零的元素的个数是否大于第二阈值;

若所述第二词串距离集合S2(i)中取值为零的元素的个数大于等于所述第二阈值,则保留所述专业名词描述预处理集合中的对应元素,将其加入所述第一专业名词描述集合,并将与其对应的所述专业名词预处理集合中的元素加入所述第一专业名词集合,将与其对应的所述参数预处理集合中的元素加入所述第一参数集合;

若所述第二词串距离集合S2(i)中取值为零的元素的个数小于所述第二阈值,则放弃所述专业名词描述预处理集合中对应的第i个元素,并放弃所述专业名词预处理集合中的对应元素与所述参数预处理集合中的对应元素。

2.根据权利要求1所述的文本信息处理方法,其特征在于,对所述文本信息进行预处理时,至少对所述文本信息依次进行数据清洗处理、标点符号去除处理、切词处理、停用词去除处理以及重复词去除处理。

3.根据权利要求1或2所述的文本信息处理方法,其特征在于,对多个所述词语及所述参数进行分类提取的步骤包括:

对所述词语进行词性标注;

根据所述词语的词性和上下文关系,对多个所述词语及所述参数进行分类提取,获取所述数据预处理集合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于明品云(北京)数据科技有限公司,未经明品云(北京)数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110765335.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top