[发明专利]多模态违禁词检测方法、装置、计算机设备及存储介质在审
| 申请号: | 202111681689.5 | 申请日: | 2021-12-30 |
| 公开(公告)号: | CN114330308A | 公开(公告)日: | 2022-04-12 |
| 发明(设计)人: | 雷雨 | 申请(专利权)人: | 深圳市富之富信息科技有限公司 |
| 主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/279;G06F16/683;G06F16/783 |
| 代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 李燕娥 |
| 地址: | 518000 广东省深圳市龙华区龙华*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 多模态 违禁 检测 方法 装置 计算机 设备 存储 介质 | ||
本发明实施例公开了多模态违禁词检测方法、装置、计算机设备及存储介质。所述方法包括:获取终端上传的音视频数据以及文字数据,以得到初始文件;对所述初始文件提取文字,以得到待检测文本语料;对所述待检测文本语料结合违禁词树进行违禁词检测,以得到检测结果;根据所述检测结果生成修改意见。通过实施本发明实施例的方法可实现自动检测短视频内容是否存在违禁词,效率高,且准确率高。
技术领域
本发明涉及词语检测方法,更具体地说是指多模态违禁词检测方法、装置、计算机设备及存储介质。
背景技术
自媒体从业者每发布一个短视频于第三方平台时,都需要主动再三检查短视频中的文案信息是否有违背短视频平台规则,一旦不小心违背了相关不该出现的词语,轻则限制流量,重则会导致封号。
而传统的违禁词检查方法则是根据个人的经验积累,一遍又一遍观看制作好的短视频内容,从而发现是否存在违禁词,此方法效率低下,且纯靠经验积累,内容非常容易触碰到平台规则,从而存在限流或封号的风险。
因此,有必要设计一种新的方法,实现自动检测短视频内容是否存在违禁词,效率高,且准确率高。
发明内容
本发明的目的在于克服现有技术的缺陷,提供多模态违禁词检测方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:多模态违禁词检测方法,包括:
获取终端上传的音视频数据以及文字数据,以得到初始文件;
对所述初始文件提取文字,以得到待检测文本语料;
对所述待检测文本语料结合违禁词树进行违禁词检测,以得到检测结果;
根据所述检测结果生成修改意见。
其进一步技术方案为:所述对所述初始文件提取文字,以得到待检测文本语料,包括:
采用python的moviepy库提取所述初始文件中的视频数据对应的音频文件;
将所述音频文件与所述初始文件中的音频文件转化为文字,以得到文字内容;
整合所述文字内容以及所述文字数据,以得到待检测文本语料。
其进一步技术方案为:所述对所述待检测文本语料结合违禁词树进行违禁词检测,以得到检测结果,包括:
对所述待检测文本语料进行停用词过滤,以得到过滤结果;
定义用于存储违禁词的数组,设置所述数组的初始值为空,以得到第一数组;
构建违禁词树;
定义字典以及长度数组;
将所述违禁词树存储于字典内;
遍历所述过滤结果,根据所述过滤结果以及所述违禁词筛选所述过滤结果内的违禁词,并存储第一数组内;
输出所述第一数组,以得到检测结果。
其进一步技术方案为:所述构建违禁词树,包括:
创建一个哈希表,以得到树的空白根节点;
遍历违禁词词库,得到当前违禁词字符串;
遍历所述当前违禁词字符串,得到当前字符;
判断树结构中是否包含所述当前字符;
若树结构中未包含所述当前字符,则构建树的一个节点,并将所述当前字符作为新节点的字符,执行所述遍历所述当前违禁词字符串,得到当前字符;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市富之富信息科技有限公司,未经深圳市富之富信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111681689.5/2.html,转载请声明来源钻瓜专利网。





