[发明专利]文本分类方法、装置、计算设备及可读存储介质有效
申请号: | 201811087865.0 | 申请日: | 2018-09-18 |
公开(公告)号: | CN110909157B | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 高喆;康杨杨;周笑添;孙常龙;刘晓钟;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京成创同维知识产权代理有限公司 11449 | 代理人: | 刘静 |
地址: | 开曼群岛大开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 计算 设备 可读 存储 介质 | ||
1.一种文本分类方法,适于从包括多个未标注样本的第一样本集合中选择用于分类模型的样本,所述分类模型适于确定消息是否为预定类别,并采用包括多个已标注样本的第二样本集合训练得到,所述已标注样本的标签指示样本是否为所述预定类别,所述样本包括消息签名,所述方法包括步骤:
基于消息签名和所述第二样本集合,为所述未标注样本计算第一标注指标,所述第一标注指标包括签名一致性指标和签名倾向性指标;
为所述未标注样本计算第二标注指标,所述第二标注指标包括不确定性指标、密度指标、多样性指标、投票委员会指标、误差缩减指标和方差缩减指标中的至少一个;以及
基于第一标注指标和第二标注指标,选择多个未标注样本进行标注。
2.如权利要求1所述的方法,其中,所述基于消息签名,为所述未标注样本计算第一标注指标的步骤包括:
获取所述预定类别对应的签名关键词;
根据所述未标注样本的消息签名所包含的所述签名关键词的个数,计算所述未标注样本的签名一致性指标。
3.如权利要求2所述的方法,其中,所述获取预定类别对应的签名关键词的步骤包括:
确定所述第二样本集合所包含的正样本,所述正样本为标签指示为所述预定类别的样本;
根据正样本的消息签名,确定所述预定类别对应的签名关键词。
4.如权利要求2所述的方法,其中,所述未标注样本的签名一致性指标按照以下公式计算:
Consistency=min(M,2)/2
式中,Consistency为所述未标注样本的签名一致性指标,M为所述签名关键词的个数。
5.如权利要求1所述的方法,其中,所述基于消息签名,为所述未标注样本计算第一标注指标的步骤包括:
确定所述第二样本集合中包括所述未标注样本的消息签名的正样本和包括所述未标注样本的消息签名的负样本,所述负样本为标签指示不为所述预定类别的样本;
计算包括所述未标注样本的消息签名的正样本和包括所述未标注样本的消息签名的负样本的数量之比;
根据所述数量之比计算所述未标注样本的签名倾向性指标。
6.如权利要求5所述的方法,其中,所述未标注样本的签名倾向性指标按照以下公式计算:
Tendency=1-e-s
式中,Tendency为所述未标注样本的签名倾向性指标,s为所述数量之比。
7.如权利要求1所述的方法,其中,所述为所述未标注样本计算第二标注指标的步骤包括:
根据所述未标注样本和所述分类模型的参数,计算所述未标注样本的不确定性指标。
8.如权利要求7所述的方法,其中,所述未标注样本的不确定性指标按照以下公式计算:
式中,Uncertainty为所述未标注样本的不确定性指标,x为所述未标注样本的特征向量,w为所述分类模型的参数向量。
9.如权利要求1所述的方法,其中,所述为所述未标注样本计算第二标注指标的步骤包括:
在所述第一样本集合中确定所述未标注样本的邻域;
根据所述邻域计算所述未标注样本的密度指标。
10.如权利要求9所述的方法,其中,所述未标注样本的密度指标按照以下公式计算:
式中,Density为当前未标注样本的密度指标,x为当前未标注样本的特征向量,N(x)为当前未标注样本的邻域,n为所述邻域内除当前未标注样本以外的未标注样本的个数,xk为所述邻域内除当前未标注样本以外的未标注样本的特征向量。
11.如权利要求1所述的方法,其中,所述为所述未标注样本计算第二标注指标的步骤包括:
根据所述未标注样本与所述第二样本集合所包含的已标注样本之间的距离,计算所述未标注样本的多样性指标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811087865.0/1.html,转载请声明来源钻瓜专利网。