[发明专利]分类模型训练方法、分类方法及装置、设备和介质有效
| 申请号: | 202010207241.9 | 申请日: | 2018-12-18 |
| 公开(公告)号: | CN111339306B | 公开(公告)日: | 2023-05-12 |
| 发明(设计)人: | 张海松;宋彦 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/214;G06F18/2415 |
| 代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王兆林 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分类 模型 训练 方法 装置 设备 介质 | ||
1.一种分类模型训练方法,其特征在于,包括:
利用第一样本集对初始分类模型进行训练,得到预训练模型,所述第一样本集包括第一样本,所述第一样本包括社交文本及其对应的表情符号标签,所述初始分类模型包括词嵌入层、卷积层、至少一个特征提取层以及分类层;所述特征提取层包括多个卷积层和一个池化层,每个卷积层与其后所有卷积层相连接;
对所述预训练模型进行功能模块化处理,得到多个子模块;
按照冻结与解冻权值的方式,利用第二样本集依次对每个子模块进行训练,直到所述多个子模块均处于收敛状态,将包括处于收敛状态的多个子模块的模型作为社交文本情感分类模型,所述社交文本情感分类模型以社交文本作为输入,以社交文本对应的情感类别的概率分布作为输出,所述第二样本集包括第二样本,所述第二样本包括社交文本及其对应的情感分类标签;
其中,所述冻结与解冻权值的方式是指在训练某个子模块时,解冻某个子模块的权值对其进行训练,并冻结其余子模块的权值,所述冻结与解冻权值的训练方式包括:对于每个子模块,解冻该子模块中各神经网络层的模型参数,冻结多个子模块中除该子模块之外的子模块中各层神经网络层的模型参数,利用第二样本对该子模块进行训练,以在该子模块满足收敛状态后确定完成对该子模块的训练,按照上述方式利用第二样本集对各个子模块逐一进行训练;
通过以下方式生成所述第一样本集:
采集多个社交文本,生成社交文本集,所述社交文本包括表情符号;
针对所述社交文本集中各表情符号,根据该表情符号出现的次数以及该表情符号与情感词典中各情感词的共现次数,确定该表情符号的情感能力;
针对所述社交文本集中各社交文本,确定该社交文本中所包含的情感能力最高的表情符号,作为该社交文本对应的表情符号标签;
根据所述社交文本集中各社交文本及其对应的表情符号标签,生成所述第一样本集;
其中,所述表情符号的情感能力的确定方式包括:
基于公式(1)、(2)来计算表情符号对应的正向情感能力和负向情感能力;
其中,为社交文本集中第i个表情符号对应的正向情感能力;为社交文本集中第i个表情符号对应的负向情感能力;为第i个表情符号与情感词典中第j个正向情感词的共现次数;为第i个表情符号与情感词典中第k个负向情感词的共现次数;为第i个表情符号在社交文本集中的出现次数;M和N分别为情感词典中收录的正向情感词的数量和负向情感词的数量;
将表情符号对应的所述正向情感能力与所述负向情感能力相加得到表情符号的情感能力。
2.根据权利要求1所述方法,其特征在于,根据所述社交文本集中各社交文本及其对应的表情符号标签,生成所述第一样本集,包括:
基于不同表情符号对应的社交文本数量相同的原则,从所述社交文本集中抽取不同表情符号所对应的社交文本;
根据所抽取的社交文本及其对应的表情符号标签,生成所述第一样本集。
3.根据权利要求1所述方法,其特征在于,在确定该表情符号的情感能力之后,所述方法还包括:
按照表情符号的情感能力由高到低排序,从所述社交文本集中选择排序靠前的前M个表情符号,M为正整数;
则确定该社交文本中所包含的情感能力最高的表情符号,作为该社交文本对应的表情符号标签,包括:
确定该社交文本中所包含的所述M个表情符号中情感能力最高的表情符号,作为该社交文本对应的表情符号标签。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述社交文本包括微博;所述情感分类标签用于表征微博的情感极性,所述情感极性的分类包括正极性、负极性和中性。
5.一种分类方法,其特征在于,包括:
获取社交文本;
根据所述社交文本,通过社交文本情感分类模型,获得所述社交文本对应的情感类别概率分布,所述社交文本情感分类模型是根据上述权利要求1至4中任一项所述分类模型训练方法训练得到的;
根据所述社交文本对应的情感类别概率分布,确定所述文本的情感类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010207241.9/1.html,转载请声明来源钻瓜专利网。





