[发明专利]面向开放环境的弱监督持续文本分类方法、装置在审

专利信息
申请号: 202310202945.0 申请日: 2023-03-06
公开(公告)号: CN116401363A 公开(公告)日: 2023-07-07
发明(设计)人: 李妙妙;朱嘉奇;杨翊;陈辉;王宏安 申请(专利权)人: 中国科学院软件研究所
主分类号: G06F16/35 分类号: G06F16/35;G06F16/36
代理公司: 北京市万慧达律师事务所 11111 代理人: 刘锋
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 开放 环境 监督 持续 文本 分类 方法 装置
【说明书】:

发明涉及面向开放环境的弱监督持续文本分类方法、装置。方法包括:数据采集步骤;初步分类步骤;延迟分类决策步骤;种子词更新步骤。提出了一个弱监督文本分类的持续学习框架,通过延迟低置信度的分类决策,在分类准确性和决策及时性之间做出良好的权衡;并且实现了自动捕捉主题的语义变化,从而主动更新每个已知类别的种子词,做到了旧知识的维护和新知识的发现之间的平衡。

技术领域

本发明涉及计算机技术领域,特别是涉及一种面向开放环境的弱监督持续文本分类方法、装置。

背景技术

随着社交媒体和移动通信技术的快速发展,互联网上的文本数据呈现出爆炸式增长趋势。对这些文本进行分类是互联网数据挖掘中的一项基本任务,已有许多重要的应用,如情感分析和用户意图识别等。与一般场景的文本分类不同,互联网是一个开放且不断变化的环境,充满了未知。首先,已知话题的含义可能会不断变化,形成概念漂移。因此,有必提供一种分类模型适应于这样的动态环境,并能够尽快做出每一个决策。

持续学习,主要研究的是在无限的数据流上学习的问题,目的是逐渐扩展所学的知识,并将其传递到未来的学习中,该技术的研究主要集中在克服灾难性遗忘问题和鼓励跨任务的知识传输。弱监督文本分类,又称无标注数据文本分类,其不依赖于标注数据,只需要每个类别的少量种子词。这种设置更适合于开放互联网上的文本分类,使得标注成本大大降低,且仅需提供类别的初始种子词,就可以实现对短文本话题的无监督分类,大大减小了标注文档的代价,可以作为先验知识随着时间进行传递,来持续地指导分类的过程。目前,该技术的成功研究主要包括基于主题模型的方法和神经网络的方法。

现有的持续文本分类技术皆局限于监督学习范式,因此它们严重依赖于标记数据,无法避免耗时严重且成本高昂的数据标注问题,不适合于数据不断累积且不断变化的开放世界互联网环境。同时,现有的持续文本分类技术,大多利用神经网络,导致的直接结果是灾难性遗忘问题。即这些方法在学习新知识时,会严重地忘记之前学过的旧知识。现有的弱监督文本分类技术皆基于固定训练集和测试集的封闭世界假设,因此无法应对类别及其含义不断变化的流数据,不适合在开放和动态的互联网上对文本进行分类。

针对上述问题,尚未提出有效的解决方案。

发明内容

基于此,有必要针对上述技术问题,提供一种面向开放环境的弱监督持续文本分类方法、装置,以实现开放动态环境下的互联网文本分类。本发明提出了一个弱监督文本分类的持续学习框架,从而应对开放的互联网环境及不断发展演化的主题语义,通过延迟低置信度的分类决策,在分类准确性和决策及时性之间做出良好的权衡;并且实现了自动捕捉主题的语义变化,从而主动更新每个已知类别的种子词,做到了旧知识的维护和新知识的发现之间的平衡。

根据本发明的第一方面,提供了一种面向开放环境的弱监督持续文本分类方法,包括:

数据采集步骤,在每个时间段t获取需要分类的文本数据Dt

初步分类步骤,在每个时间段t中将文本集合Dt′和种子词集合作为调用的基础模型的输入,计算初步分类结果z(d)和分类置信度Pt(d)=Pt(z(d)|d0作为输出;

延迟分类决策步骤,在每个时间段t中进行计算获得阈值,接受文本集合Dt′中分类置信度大于或等于阈值的文本,拒绝文本集合Dt′中分类置信度小于阈值的文本并使其进入下一时间段进行延迟分类决策;

其中,基础模型为弱监督文本分类模型,文本集合为时间段t-1被延迟分类决策的文本集合。

在一些实施例中,进行计算获得阈值,包括利用置信度小于阈值的正样本、置信度大于或等于阈值的负样本的数量作为参数对每个时间段的阈值进行更新;

其中,正样本为前一个时间段置信度大于或等于阈值的文本,负样本为前一个时间段置信度小于阈值的文本。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310202945.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top