[发明专利]面向开放环境的弱监督持续文本分类方法、装置在审
申请号: | 202310202945.0 | 申请日: | 2023-03-06 |
公开(公告)号: | CN116401363A | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 李妙妙;朱嘉奇;杨翊;陈辉;王宏安 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 刘锋 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 开放 环境 监督 持续 文本 分类 方法 装置 | ||
1.一种面向开放环境的弱监督持续文本分类方法,其特征在于,包括以下步骤:
数据采集步骤,在每个时间段t获取需要分类的文本数据Dt;
初步分类步骤,在每个时间段t中将文本集合Dt′和种子词集合作为调用的基础模型的输入,计算初步分类结果z(d)和分类置信度Pt(d)=Pt(z(d)|d)作为输出;
延迟分类决策步骤,在每个时间段t中进行计算获得阈值,接受文本集合Dt′中分类置信度大于或等于阈值的文本,拒绝文本集合Dt′中分类置信度小于阈值的文本并使其进入下一时间段进行延迟分类决策;
其中,所述基础模型为弱监督文本分类模型,所述文本集合所述为时间段t-1被延迟分类决策的文本集合。
2.根据权利要求1所述的面向开放环境的弱监督持续文本分类方法,其特征在于,
所述进行计算获得阈值,包括利用置信度小于阈值的正样本、置信度大于或等于阈值的负样本的数量作为参数对每个时间段的阈值进行更新;
其中,正样本为前一个时间段置信度大于或等于阈值的文本,负样本为前一个时间段置信度小于阈值的文本。
3.根据权利要求1所述的面向开放环境的弱监督持续文本分类方法,其特征在于,
所述进行计算获得阈值,包括:利用计算公式计算获得阈值,所述计算公式为:
的更新方式为:
其中∈为阈值,为一个新的参数,γ为损失权重,n1、n2、n3分别表示置信度大于或等于阈值的正样本的总数、置信度小于阈值的正样本的总数、和置信度大于或等于阈值的负样本的总数;正样本为前一个时间段置信度大于或等于阈值的文本,负样本为前一个时间段置信度小于阈值的文本。
4.根据权利要求1所述的面向开放环境的弱监督持续文本分类方法,其特征在于,
还包括种子词更新步骤,在每个时间段t中在接受的文本上重新执行基础模型得到按重要性排序的关键词,对得到的关键词进行筛选得到候选种子词集合,利用候选种子词集合对当前种子词集合进行更新,输出更新后的种子词集合作为下一个时间段的初始种子词集合。
5.根据权利要求4所述的面向开放环境的弱监督持续文本分类方法,其特征在于,
所述利用候选种子词集合对当前种子词集合进行更新,包括:使用主题一致性指标UMass评估候选种子词集合、当前种子词集合中每个种子词,并通过对性能提升立即奖励的强化学习对当前种子词集合进行更新。
6.根据权利要求4所述的面向开放环境的弱监督持续文本分类方法,其特征在于,
所述利用候选种子词集合对当前种子词集合进行更新,包括:输入前两个时间段排好序的种子词集合St、St-1,当前时间段排好序的候选种子词集合W以及文本集合Dt-2、Dt-1、Dt;基于种子词集S和文本集D计算UMass一致性;在种子词添加阶段,尝试将候选种子词集合中的词按顺序添加到当前种子词集合中,一旦UMass值增加,则将该词添加到当前种子词集合中;在种子词删除部分,尝试将当前时间段初始种子词集合中的词按顺序从当前种子词集合中删除,当UMass值更好时,若对种子词集合St、St-1进行同样的词的删除时任一UMass值也更好,则将该词从当前种子词集合中删除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310202945.0/1.html,转载请声明来源钻瓜专利网。