[发明专利]文本分类方法、装置、计算设备及可读存储介质有效
申请号: | 201811087865.0 | 申请日: | 2018-09-18 |
公开(公告)号: | CN110909157B | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 高喆;康杨杨;周笑添;孙常龙;刘晓钟;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京成创同维知识产权代理有限公司 11449 | 代理人: | 刘静 |
地址: | 开曼群岛大开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 计算 设备 可读 存储 介质 | ||
本发明公开了一种文本分类方法,适于从包括多个未标注样本的第一样本集合中选择用于分类模型的样本,分类模型适于为消息进行分类,样本包括消息签名,该方法包括步骤:基于消息签名,为未标注样本计算第一标注指标;为未标注样本计算第二标注指标,第二标注指标包括不确定性指标、密度指标、多样性指标、投票委员会指标、误差缩减指标和方差缩减指标中的至少一个;以及基于第一标注指标和第二标注指标,选择多个未标注样本进行标注。本发明还公开了对应的文本分类装置、计算设备和可读存储介质。
技术领域
本发明涉及人工智能技术领域,尤其涉及文本分类方法、装置、计算设备及可读存储介质。
背景技术
监督学习模型,例如:支持向量机或者神经网络,被广泛应用于分类问题,特别是文本分类问题。所有分类模型都需使用包括大量已标注有标签的样本的训练集来进行训练,并且分类模型的分类效果依赖于已标注样本的质量。然而,样本的标签难以自动获取,需要由领域专家对样本进行人工标注。在这种情况下,获取已标注样本极为费时费力,标注成本很高。而且,训练集通常包含不少质量较差,也就是对分类模型价值较低的冗余样本。
为了减小训练集及标注成本,通常采用主动学习方法来有选择性地从大量未标注的样本中挑选对分类模型价值最高的那些样本进行标注,从而优化分类模型。但对于为消息进行行业分类这样的文本分类问题来说,目前的主动学习方法对于减小训练集和降低标注成本的作用还有待改善。一方面其选择样本的策略较为简单,通常仅使用单一指标来衡量样本标注价值。另一方面其在挑选样本忽略了消息本身包括的可以体现标注价值的特点。
因此,迫切需要一种更先进的使用较小训练集即可达到较好性能的文本分类方案。
发明内容
为此,本发明实施例提供一种文本分类方法、装置、计算设备及可读存储介质,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明实施例的一个方面,提供了一种文本分类方法,适于从包括多个未标注样本的第一样本集合中选择用于分类模型的样本,分类模型适于为消息进行分类,样本包括消息签名,该方法包括步骤:基于消息签名,为未标注样本计算第一标注指标;为未标注样本计算第二标注指标,第二标注指标包括不确定性指标、密度指标、多样性指标、投票委员会指标、误差缩减指标和方差缩减指标中的至少一个;以及基于第一标注指标和第二标注指标,选择多个未标注样本进行标注。
可选地,在根据本发明实施例的文本分类方法中,分类模型适于确定消息是否为预定类别,并采用包括多个已标注样本的第二样本集合训练得到,该已标注样本的标签指示样本是否为该预定类别。
可选地,在根据本发明实施例的文本分类方法中,第一标注指标包括签名一致性指标,基于消息签名,为未标注样本计算第一标注指标的步骤包括:获取预定类别对应的签名关键词;根据未标注样本的消息签名所包含的签名关键词的个数,计算未标注样本的签名一致性指标。
可选地,在根据本发明实施例的文本分类方法中,获取预定类别对应的签名关键词的步骤包括:确定第二样本集合所包含的正样本,正样本为标签指示为预定类别的样本;根据正样本的消息签名,确定预定类别对应的签名关键词。
可选地,在根据本发明实施例的文本分类方法中,未标注样本的签名一致性指标按照以下公式计算:
Consistency=min(M,2)/2
式中,Consistency为未标注样本的签名一致性指标,M为签名关键词的个数。
可选地,在根据本发明实施例的文本分类方法中,第一标注指标包括签名倾向性指标,基于消息签名,为未标注样本计算第一标注指标的步骤包括:确定第二样本集合中包括未标注样本的消息签名的正样本和包括未标注样本的消息签名的负样本,负样本为标签指示不为预定类别的样本;计算包括未标注样本的消息签名的正样本和包括未标注样本的消息签名的负样本的数量之比;根据该数量之比计算未标注样本的签名倾向性指标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811087865.0/2.html,转载请声明来源钻瓜专利网。