[发明专利]颜文字检测模型的训练、视频数据的审核方法及相关装置在审
| 申请号: | 202010866298.X | 申请日: | 2020-08-25 |
| 公开(公告)号: | CN111986259A | 公开(公告)日: | 2020-11-24 |
| 发明(设计)人: | 薛昊 | 申请(专利权)人: | 广州市百果园信息技术有限公司 |
| 主分类号: | G06T7/70 | 分类号: | G06T7/70;G06N3/04;G06K9/62;G06K9/34 |
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 511402 广东省广州市番*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文字 检测 模型 训练 视频 数据 审核 方法 相关 装置 | ||
本发明实施例提供了颜文字检测模型的训练、视频数据的审核方法及相关装置,该方法包括:采集颜文字及相应的类别;获取包含文字的图像数据、作为样本图像数据;参考文字将颜文字写入样本图像数据中,以模拟用户将颜文字与文字作为短文书写在样本图像数据中;确定颜文字在样本图像数据中所处的位置;以样本图像数据作为训练的样本、类别与位置作为标签,训练颜文字检测模型。模拟用户将颜文字与文字编排成短文制作样本,能够获得更为真实、贴近网络宣传内容的训练样本集,再对样本中颜文字的类别和位置标记标签,可提高模型对内容违规特征的检测效率,保证审核模型的性能。
技术领域
本发明实施例涉及内容审核的技术领域,尤其涉及颜文字检测模型的训练、视频数据的审核方法及相关装置。
背景技术
随着互联网技术的发展,颜文字(又称表情符号)在社交网络中出现的频次越来越高,由于颜文字的种类丰富,通过颜文字本身、多种颜文字的组合均可以表达一定的语义信息,增加了沟通表达的趣味性,越来越多的网络用户使用颜文字来代替语言文字本身。
有些用户利用颜文字本身携带语义信息的特性,在视频、图像中将颜文字(如emoji)代替部分语言文字,从而隐藏一些敏感信息,这些敏感信息可能涉及恐怖、暴力、色情、赌博、负面社会舆论等,对于短视频等制作简单、传播速度快的视频数据,尤为明显。
通常,各大网络平台会对用户上传的视频、图像内容进行审核,从而过滤其中包含违规内容的视频。
目前,网络平台通常采用图像语义对视频和图像内容进行审核,图像语义是针对图像内容本身违规的数据,由于颜文字本身是符合规定的,与使用图像语义进行审核,容易遗漏颜文字,此时,是依靠人工进行审核,但人工审核需要消耗大量人力成本且审核耗时长,导致审核的效率较低。
发明内容
本发明实施例提出了颜文字检测模型的训练、视频数据的审核方法及相关装置,以解决利用图像语义进行内容审核,容易遗漏颜文字的问题。
第一方面,本发明实施例提供了一种颜文字检测模型的训练方法,包括:
采集颜文字及相应的类别;
获取包含文字的图像数据、作为样本图像数据;
参考所述文字将所述颜文字写入所述样本图像数据中,以模拟用户将所述颜文字与所述文字作为短文书写在所述样本图像数据中;
确定所述颜文字在所述样本图像数据中所处的位置;
以所述样本图像数据作为训练的样本、所述类别与所述位置作为标签,训练颜文字检测模型。
第二方面,本发明实施例还提供了一种视频数据的审核方法,包括:
接收视频数据;
从所述视频数据中提取部分图像数据,作为目标图像数据;
确定颜文字检测模型;
将所述目标图像数据输入所述颜文字检测模型中进行处理,以预测颜文字的位置及适于内容审核的类别;
对所述视频数据标记所述颜文字在所述目标图像数据中所处的所述位置及所述类别。
第三方面,本发明实施例还提供了一种颜文字检测模型的训练装置,包括:
图像数据采集模块,用于采集颜文字及相应的类别;
样本图像数据获取模块,用于获取包含文字的图像数据、作为样本图像数据;
样本图像数据处理模块,用于参考所述文字将所述颜文字写入所述样本图像数据中,以模拟用户将所述颜文字与所述文字作为短文书写在所述样本图像数据中;
颜文字位置确定模块,用于确定所述颜文字在所述样本图像数据中所处的位置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市百果园信息技术有限公司,未经广州市百果园信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010866298.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抑制辣椒病毒的药
- 下一篇:一种变压器分接开关油室取样装置及取样方法





