[发明专利]面向直播场景的实时字幕过滤及系统实现方法在审

专利信息
申请号: 201811523214.1 申请日: 2018-12-13
公开(公告)号: CN109670043A 公开(公告)日: 2019-04-23
发明(设计)人: 张晖;丁一全 申请(专利权)人: 南京邮电大学
主分类号: G06F16/35 分类号: G06F16/35;G06F17/27;G06N3/04;H04N21/4545;H04N21/488
代理公司: 南京苏科专利代理有限责任公司 32102 代理人: 姚姣阳
地址: 210003 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 字幕数据 过滤 卷积神经网络 实时字幕 特征矩阵 系统实现 词向量 预处理 输出结果判断 场景 直播 计数报警器 用户体验 字幕信息 实时性 语料库 算法 维基 字幕 屏幕 中文 监管 观众
【说明书】:

发明揭示了一种面向直播场景的实时字幕过滤及系统实现方法,包括如下步骤:S1、对字幕数据做预处理;S2、利用Word2Vec算法中的Skip‑gram模型根据维基中文语料库训练出每个词的词向量;S3、将训练好的词向量按照字幕数据的词序组合成表示字幕数据的特征矩阵;S4、对卷积神经网络进行训练,将特征矩阵输入到训练好的卷积神经网络中;S5、根据卷积神经网络的输出结果判断字幕数据是否为不良字幕信息,若是则在屏幕上过滤掉,反之则不过滤;S6、设置计数报警器,对过滤的字幕数据进行计数、监管。本发明解决了现有技术中的字幕过滤实时性以及准确性不高的问题,给观众带来了更为舒适的用户体验,使用效果优异。

技术领域

本发明涉及一种依托于计算机技术的实时字幕过滤方法,具体而言,涉及一种面向直播场景的实时字幕过滤及系统实现方法,属于深度学习技术领域。

背景技术

近年来,网络直播行业发展极为迅速,各种直播平台层出不穷。随着各类直播平台的不断发展壮大,越来越多的用户开始进行直播或者观看,信息量日益剧增。网络直播平台具有很强的开放性,其最为显著的一个特点就是直播者可以随意的发表自己的言论,同时这些言论会以字幕的形式显示在直播间,使身处同一个直播间的所有用户都能看到。

在实际的平台运营过程中,总会出现有一些个人素质不高的直播者,为了追求低级趣味,在直播中发表粗俗、反动、黄色等不当言论。由于直播的即时性和瞬时性特点,言论一出即成为既定事实,相关的管制措施往往起不到任何实质性的作用;同时由于直播的隐秘性,有些低俗直播不能被及时地发现并处理,这对青少年、对社会都造成了极大的危害。正是基于这样的大环境,因此目前各类直播平台对于不良言论的实时过滤的要求也愈来愈高。

现有技术中对不良信息进行识别的方法主要基于固定词汇检索,其缺点是需要手动添加不良词汇范例,相对而言在数量及覆盖范围上都十分有限,从而导致识别效果不佳。而其他相关技术对于直播平台的实时性也无法保证,因而对于直播平台的实时字幕过滤也很难适用。

综上所述,如何在现有技术的基础上提出一种面向直播场景的实时字幕过滤及系统实现方法,快速且准确的完成对实时字幕的过滤,也就成为了本领域内技术人员亟待解决的问题。

发明内容

鉴于现有技术存在上述缺陷,本发明的目的是提出一种面向直播场景的实时字幕过滤及系统实现方法,包括如下步骤:

S1、对字幕数据做预处理;

S2、利用Word2Vec算法中的Skip-gram模型根据维基中文语料库训练出每个词的词向量;

S3、将训练好的词向量按照字幕数据的词序组合成表示字幕数据的特征矩阵;

S4、对卷积神经网络进行训练,将特征矩阵输入到训练好的卷积神经网络中;

S5、根据卷积神经网络的输出结果判断字幕数据是否为不良字幕信息,若是则在屏幕上过滤掉,反之则不过滤;

S6、设置计数报警器,对过滤的字幕数据进行计数,当过滤的字幕数据的数量超过所述计数报警器内的阈值时,向直播管理平台报警。

优选地,S1中所述预处理包括中文分词处理以及去除停用词。

优选地,S2具体包括如下步骤:

S21、选用维基中文语料库训练词向量;

S22、设置Skip-gram的窗口长度参数c为5,以避免关联到更多语义不相关的词汇和缩短训练时间;

S23、设置词向量维数k为100;

S24、Skip-gram模型根据数据集训练出各个词组的词向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811523214.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top