[发明专利]识别课堂教学视频中行为的方法及装置在审
申请号: | 202111238561.1 | 申请日: | 2021-10-25 |
公开(公告)号: | CN114067391A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 赵悦汐;程红兵;鞠剑伟;昝晨辉 | 申请(专利权)人: | 北京金茂教育科技有限公司 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V40/20;G06V20/40;G06Q50/20 |
代理公司: | 北京中索知识产权代理有限公司 11640 | 代理人: | 胡大成 |
地址: | 100000 北京市丰台区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 课堂教学 视频 行为 方法 装置 | ||
本申请公开一种识别课堂教学视频中行为的方法及装置,用以解决现有独立的AI技术无法直接生成与教学场景相匹配的数据的问题。其中,一种识别课堂教学视频中行为的方法,包括:调用多媒体AI数据接口处理输入的待识别多媒体视频,得到分别按视频时间记录的视频人脸数据和语音转文字数据;匹配视频人脸数据与预设的基础人脸数据,得到标记出镜时间的人物身份信息;匹配语音转文字数据的视频时间与人物身份信息的出镜时间,得到语音转文字数据中的发言人身份信息;确定语音转文字数据中的文字内容表征的行为类别;根据发言人身份信息和行为类别,得到行为统计结果。通过有效关联视频中的人脸信息与语音数据信息,生成与教学场景相匹配的行为统计数据。
技术领域
本申请视频识别技术领域,尤其涉及一种识别课堂教学视频中行为的方法及装置。
背景技术
随着AI技术的持续发展和普及,市场上出现了很多成熟的AI模块,比如阿里多媒体AI。这些AI模块有些是视觉AI,有些是语音AI,还有些是视觉和语音简单结合的AI。在视频处理过程中,可以直接调用这些AI模块处理相应的视频,从而得到对该视频的分析数据。
在实现现有技术的过程中,发明人发现:
阿里多媒体AI以及市场中其他厂家公开出来的相对成熟的AI模块,能进行多媒体视频的数据结构化处理,但针对复杂业务场景下的教学行为识别效果较差,无法直接生成与教学场景相匹配的数据。
因此,需要提供一种识别课堂教学视频中行为的方法及装置,用以解决现有独立的AI技术无法直接生成与教学场景相匹配的数据的技术问题。
发明内容
本申请实施例提供一种识别课堂教学视频中行为的方法及装置,用以解决现有独立的AI技术无法直接生成与教学场景相匹配的数据的技术问题。
具体的,一种识别课堂教学视频中行为的方法,包括以下具体步骤:
输入待识别多媒体视频;
调用多媒体AI数据接口处理所述待识别多媒体视频,得到分别按视频时间记录的视频人脸数据和语音转文字数据;
匹配所述视频人脸数据与预设的基础人脸数据,得到标记出镜时间的人物身份信息;
匹配所述语音转文字数据的视频时间与所述人物身份信息的出镜时间,得到所述语音转文字数据中每一个句子的发言人身份信息;
处理所述语音转文字数据中每一个句子的文字内容,确定所述文字内容表征的行为类别;
根据所述发言人身份信息和所述行为类别,得到所述待识别多媒体视频的行为统计结果。
进一步的,匹配所述语音转文字数据的视频时间与所述人物身份信息的出镜时间,得到所述语音转文字数据中每一个句子的发言人身份信息,包括以下具体步骤:
按照句子格式标记所述语音转文字数据的视频时间,得到所述语音转文字数据中每一个句子的语音时间段;
匹配所述语音时间段与所述人物身份信息的出镜时间,得到时间匹配结果;
根据所述时间匹配结果,得到所述语音时间段的语音身份;
根据所述语音身份,得到所述语音转文字数据中每一个句子的发言人身份信息。
进一步的,根据所述时间匹配结果,得到所述语音时间段的语音身份,包括以下具体步骤:
当所述时间匹配结果为唯一匹配时,选择与所述语音时间段匹配的出镜时间,得到唯一匹配时间;
选择所述人物身份信息中与所述唯一匹配时间对应的具体人物身份信息,得到所述语音时间段的语音身份。
进一步的,根据所述时间匹配结果,得到所述语音时间段的语音身份,包括以下具体步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金茂教育科技有限公司,未经北京金茂教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111238561.1/2.html,转载请声明来源钻瓜专利网。