[发明专利]多模态违禁词检测方法、装置、计算机设备及存储介质在审

专利信息
申请号: 202111681689.5 申请日: 2021-12-30
公开(公告)号: CN114330308A 公开(公告)日: 2022-04-12
发明(设计)人: 雷雨 申请(专利权)人: 深圳市富之富信息科技有限公司
主分类号: G06F40/242 分类号: G06F40/242;G06F40/279;G06F16/683;G06F16/783
代理公司: 深圳市精英专利事务所 44242 代理人: 李燕娥
地址: 518000 广东省深圳市龙华区龙华*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 多模态 违禁 检测 方法 装置 计算机 设备 存储 介质
【权利要求书】:

1.多模态违禁词检测方法,其特征在于,包括:

获取终端上传的音视频数据以及文字数据,以得到初始文件;

对所述初始文件提取文字,以得到待检测文本语料;

对所述待检测文本语料结合违禁词树进行违禁词检测,以得到检测结果;

根据所述检测结果生成修改意见。

2.根据权利要求1所述的多模态违禁词检测方法,其特征在于,所述对所述初始文件提取文字,以得到待检测文本语料,包括:

采用python的moviepy库提取所述初始文件中的视频数据对应的音频文件;

将所述音频文件与所述初始文件中的音频文件转化为文字,以得到文字内容;

整合所述文字内容以及所述文字数据,以得到待检测文本语料。

3.根据权利要求1所述的多模态违禁词检测方法,其特征在于,所述对所述待检测文本语料结合违禁词树进行违禁词检测,以得到检测结果,包括:

对所述待检测文本语料进行停用词过滤,以得到过滤结果;

定义用于存储违禁词的数组,设置所述数组的初始值为空,以得到第一数组;

构建违禁词树;

定义字典以及长度数组;

将所述违禁词树存储于字典内;

遍历所述过滤结果,根据所述过滤结果以及所述违禁词筛选所述过滤结果内的违禁词,并存储第一数组内;

输出所述第一数组,以得到检测结果。

4.根据权利要求3所述的多模态违禁词检测方法,其特征在于,所述构建违禁词树,包括:

创建一个哈希表,以得到树的空白根节点;

遍历违禁词词库,得到当前违禁词字符串;

遍历所述当前违禁词字符串,得到当前字符;

判断树结构中是否包含所述当前字符;

若树结构中未包含所述当前字符,则构建树的一个节点,并将所述当前字符作为新节点的字符,执行所述遍历所述当前违禁词字符串,得到当前字符;

若树结构中包含所述当前字符,则判断当前遍历的字符是否是当前违禁词字符串的最后一个字符;

若当前遍历的字符是当前违禁词字符串的最后一个字符,则判断当前违禁词字符串是否是违禁词词库内的最后一个违禁词字符串;

若当前违禁词字符串是违禁词词库内的最后一个违禁词字符串,则输出树结构,以得到违禁词树;

若当前违禁词字符串不是违禁词词库内的最后一个违禁词字符串,则遍历违禁词词库中的下一个违禁词字符串,得到当前违禁词字符串,并执行所述遍历所述当前违禁词字符串,得到当前字符;

若当前遍历的字符不是当前违禁词字符串的最后一个字符,则向下遍历当前违禁词字符串,以更新当前字符,并执行所述判断树结构中是否包含所述当前字符。

5.根据权利要求3所述的多模态违禁词检测方法,其特征在于,所述遍历所述过滤结果,根据所述过滤结果以及所述违禁词筛选所述过滤结果内的违禁词,并存储第一数组内,包括:

获取所述过滤结果的第一个字符,以得到当前字符;

判断所述字典内的违禁词树中是否存在当前字符的节点;

若所述字典内的违禁词树中存在当前字符的节点,则将长度数组加一;

判断当前字符的节点是否是违禁词树的叶子结点;

若当前字符的节点是违禁词树的叶子结点,则从当前字符开始,长度为长度数组的数值的字符为违禁词,将所述违禁词存储第一数组内;

判断当前字符是否是所述过滤结果中的最后一个字符;

若当前字符是所述过滤结果中的最后一个字符,则执行所述输出所述第一数组,以得到检测结果;

若当前字符不是所述过滤结果中的最后一个字符,则获取当前字符的下一个字符,以更新所述当前字符,并执行所述判断所述字典内的违禁词树中是否存在当前字符的节点;

若当前字符的节点不是违禁词树的叶子结点,则执行所述获取当前字符的下一个字符,以更新所述当前字符;

若所述字典内的违禁词树中不存在当前字符的节点,则执行所述获取当前字符的下一个字符,以更新所述当前字符。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市富之富信息科技有限公司,未经深圳市富之富信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111681689.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top