[发明专利]标签分类方法、装置、电子设备及计算机可读存储介质在审
| 申请号: | 202110849883.3 | 申请日: | 2021-07-27 |
| 公开(公告)号: | CN113569067A | 公开(公告)日: | 2021-10-29 |
| 发明(设计)人: | 舒智康 | 申请(专利权)人: | 深圳TCL新技术有限公司 |
| 主分类号: | G06F16/45 | 分类号: | G06F16/45;G06K9/62 |
| 代理公司: | 深圳紫藤知识产权代理有限公司 44570 | 代理人: | 汪阮磊 |
| 地址: | 518052 广东省深圳市南山区*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 标签 分类 方法 装置 电子设备 计算机 可读 存储 介质 | ||
本申请实施例公开了一种标签分类方法、装置、电子设备及计算机可读存储介质,包括:获取媒资数据所对应的原始标签,原始标签表征所述媒资数据在第一数据类型维度的类型;对原始标签进行特征提取,得到原始标签的特征信息;根据特征信息,预测原始标签属于至少一个预设媒资标签的实际概率,预设媒资标签表征媒资数据在第二数据类型维度的类型;根据实际概率,从至少一个预设媒资标签中确定媒资数据所对应的目标媒资标签;将原始标签归类为目标媒资标签;提高媒资数据所对应的原始标签在第二数据类型维度媒资标签中分类的效率以及准确性,便于实现对媒资数据的统一管理。
技术领域
本申请涉及计算机技术领域,具体涉及一种标签分类方法、装置、电子设备及计算机可读存储介质。
背景技术
随着计算机技术的快速发展,各项领域的数据量不断暴增,尤其是媒体单位,如报社、广播电台、电视台、网站或者通讯社等,这些媒体单位每天都要产生大量的文字、图片、音视频等新闻业务数据,这些数据和描述这些数据的元数据以及它们的版权信息等统称为媒资数据,由于不同媒体单位针对媒资数据拥有一套自定义、独立的标签集,因此,将各个媒体单位的媒资数据进行统一管理变的尤为困难。
而利用传统的手动提取媒资数据的标签,进行媒资数据的分类的过程过于依赖人工,效率较低,且比较繁琐,容易出错。
发明内容
本申请实施例提供一种标签分类方法、装置、电子设备及计算机可读存储介质,可以提高标签分类的准确性,方便标签的统一管理。
本申请实施例提供了一种标签分类方法,包括:
获取媒资数据所对应的原始标签,所述原始标签表征所述媒资数据在第一数据类型维度的类型;
对所述原始标签进行特征提取,得到所述原始标签的特征信息;
根据所述特征信息,预测所述原始标签属于至少一个预设媒资标签的实际概率,所述预设媒资标签表征媒资数据在第二数据类型维度的类型;
根据所述实际概率,从所述至少一个预设媒资标签中确定所述媒资数据所对应的目标媒资标签;
将所述原始标签归类为所述目标媒资标签。
相应的,本申请实施例还提供了一种标签分类装置,包括:
获取模块,用于获取媒资数据所对应的原始标签,所述原始标签表征所述媒资数据在第一数据类型维度的类型;
提取模块,用于对所述原始标签进行特征提取,得到所述原始标签的特征信息;
预测模块,用于根据所述特征信息,预测所述原始标签属于至少一个预设媒资标签的实际概率,所述预设媒资标签表征媒资数据在第二数据类型维度的类型;
确定模块,用于根据所述实际概率,从所述至少一个预设媒资标签中确定所述媒资数据所对应的目标媒资标签;
归类模块,用于将所述原始标签归类为所述目标媒资标签。
可选的,在本申请的一些实施例中,所述提取模块包括:
提取单元,用于根据媒资标签分类模型对所述原始标签进行特征提取,得到所述原始标签所对应的特征信息。
预测模块,用于利用媒资标签分类模型,对特征信息进行预测,得到原始标签属于至少一个预设媒资标签的实际概率。
可选的,在本申请的一些实施例中,在提取单元之前,该装置还包括构建模块,构建模块包括:
获取单元,用于获取模型训练数据,所述模型训练数据包括至少一个样本原始标签;
划分单元,用于将所述样本原始标签划分为训练集和校验集;
训练单元,用于基于所述训练集,对预设标签分类模型进行训练;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳TCL新技术有限公司,未经深圳TCL新技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110849883.3/2.html,转载请声明来源钻瓜专利网。





