[发明专利]一种论文分类时的缓冲方法、装置、设备及存储介质在审

专利信息
申请号: 201911409933.5 申请日: 2019-12-31
公开(公告)号: CN111143568A 公开(公告)日: 2020-05-12
发明(设计)人: 许爽;甘勇;崔勇;苏玉;张杰;吴青娥 申请(专利权)人: 郑州工程技术学院
主分类号: G06F16/35 分类号: G06F16/35;G06K9/62
代理公司: 河南豫龙律师事务所 41177 代理人: 高继秀
地址: 450000 河南省郑州*** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 论文 分类 缓冲 方法 装置 设备 存储 介质
【说明书】:

本申请实施例公开了一种论文分类时的缓冲方法、装置、设备及存储介质,属于文本信息处理技术领域,该方法包括:获取待分类文本集和分类目标集;获取分类目标集的分类标签树和每个待分类文本的分类标签集;将所述分类标签集中的标签元素作为查询条件,从所述分类标签树中获取辅助标签集;基于所述辅助标签集中标签元素和预设的筛选条件,从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型;从初测分类模型集中选择最终分类模型或者新建最终分类模型,并基于最终分类模型,对分类文本集中待分类文本进行分类。本申请有助于提高用户的文本分类效率和维护历史分类模型的可用性,给用户提供更加良好的分类服务。

技术领域

本申请涉及文本处理技术领域,尤其涉及一种论文分类时的缓冲方法、装置、设备及存储介质。

背景技术

论文文本分类是科技文章研究中一个重要的课题,当有新的论文发表或者被声明时,最重要的一个功能就是做好对该文本的分类。科技论文是对某个科学领域中的学术问题进行研究后表述科学研究成果的理论文章,具有科学性、创造性、理论性、平易性、专业性、实践性等特点。为了有效组织和管理互联网上的海量学术资源,通常按照一个主题类别层次或大规模的概念或对学术资源进行分类,以更好地访问和搜索这些学术资源。

目前,在大多数科技论文分类方法中,论文的分类是一个瓶颈问题,很多采用人工标注,这样不仅费时费力、维护困难,而且还要求构建者具有深入的专业知识。分类树具有多层次特性,标签数量较多,当前采用的特征和方法简单低效,而且分类类别较为粗糙,当前急需研究如何自动对学术资源进行分类。

发明内容

本申请实施例的目的在于提出一种论文分类时的缓冲方法、装置、设备及存储介质,以解决现有技术中用户在进行论文分类时,分类时间消耗过多和历史分类模型更新不及时模型适用性低的问题。

为了解决上述技术问题,本申请实施例提供一种论文分类时的缓冲方法,采用了如下所述的技术方案:

一种论文分类时的缓冲方法,包括:

获取待分类文本集和分类目标集,其中,所述待分类文本集中包含n个待分类文本和与所述待分类文本一一对应的n个分类标签集,所述分类目标集中包含分类标签树、若干历史分类模型和m个已分类完成的归档文本(n、m为正整数);

获取分类目标集的分类标签树和每个待分类文本的分类标签集,其中,所述分类标签树中包含分类目标集中所有归档文本的标签,所述分类标签集中包含若干分类标签;

将所述分类标签集中的标签元素作为查询条件,从所述分类标签树中获取所述分类标签集中标签元素的父级标签、子级标签和邻居标签,并将获取的父级标签、子级标签和邻居标签生成辅助标签集;

基于所述辅助标签集中标签元素和预设的筛选条件,从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型,并生成初测分类模型集;

若初测分类模型集中存在元素,则基于预设的阈值条件,从初测分类模型集中选择最终分类模型,基于最终分类模型,对分类文本集中待分类文本进行分类;

若初测分类模型集中不存在元素,基于辅助标签集中元素,从分类目标集中获取辅助文本集,基于TrAdaBoost算法模型,将分类目标集、辅助文本集和分类文本集作为训练文本进行模型预训练,基于辅助文本集和分类目标集构建分类文本集的分类器模型作为最终分类模型,基于所述最终分类模型,对分类文本集中待分类文本进行分类。

进一步的,所述论文分类时的缓冲方法,所述分类标签树中包含分类目标集中所有归档文本的标签,还包括:

所述分类标签树,基于预先设定的层级关系表对所有归档文本的标签进行层级排列,将预设的标签作为根部标签,依次排列所述根部标签的子级标签,所述子级标签下的子级标签,直到依据层级关系表完成排列,形成树形结构。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州工程技术学院,未经郑州工程技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911409933.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top