[发明专利]一种基于音视频双模态的口语学习监测方法无效
申请号: | 201310108831.6 | 申请日: | 2013-03-29 |
公开(公告)号: | CN103218924A | 公开(公告)日: | 2013-07-24 |
发明(设计)人: | 许东星 | 申请(专利权)人: | 上海众实科技发展有限公司 |
主分类号: | G09B5/06 | 分类号: | G09B5/06 |
代理公司: | 上海宝鼎专利代理有限公司 31222 | 代理人: | 龚峥嵘 |
地址: | 201100 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视频 双模 口语 学习 监测 方法 | ||
技术领域
本发明涉及一种用户在线学习监测方法,尤其涉及一种基于音视频双模态的口语学习监测方法。
背景技术
目前,在全球化的大趋势下,口语教育正成为全球的一个庞大产业。对于中国的情况来说,中国人学习外语以及外国人学习汉语的热潮越发高涨。一方面,外语(特别是英语)是商业交流活动中不可缺少的工具,从而推动了中国在职人员学习外语的热情。据不完全统计,北京、上海等大城市约有1%的在职人员在外语学习方面投入超过收入的10%。另一方面,全球化推动学习英语的热潮中,也成就了新的热潮,比如“中国热”。
但是目前的传统语言教育方式越来越不能满足这一趋势。作为相互交流的基础,现代语言的学习越来越强调发音的学习。语言教学中,教师作为一个有效的反馈源,仍然有一些无法解决的问题:语言的学习是需要反复训练的,需要随时随地有效利用碎片时间进行练习;但是教师资源的有限性,不可能对所有学生随时进行一对一的指导。不少学生在传统语言教学模式下逐渐对语言学习失去兴趣,进而变成哑巴外语、应试外语。
计算机辅助语言教学(computer-assisted language learning,简称CALL),按照人们事先安排的语言教学计划和内容进行课堂教学和辅助课外操。早在1955年左右就有人探讨如何把计算机用于教育。现在,计算机辅助语言教学和远程网络结合起来广泛应用于口语学习。在线口语学习平台因时间自由,费用低廉,越来越得到普通用户的青睐;而对于口语学习平台来说,用户的增加,若不增加师资力量,必然导致单个用户资源的不足,而当今社会,人力成本越来越高,如何有效的监管用户的学习情况,已成为摆在口语学习平台的一个重要问题。因此有必要提供一种基于音视频双模态的口语学习监测方法,能够替代大部分教师资源,自动实现用户口语学习发音和嘴型的比对分析,找出用户发音的不足及产生原因,帮助用户改正,促进用户的语言学习。
发明内容
本发明所要解决的技术问题是提供一种基于音视频双模态的口语学习监测方法,能够自动实现用户口语学习发音和嘴型的比对分析,帮助用户找出发音的不足及产生原因,减少对教师资源的依赖并提高学习效率。
本发明为解决上述技术问题而采用的技术方案是提供一种基于音视频双模态的口语学习监测方法,包括如下步骤:a)建立所有标准发音单元的声音信息库和图像特征信息库;b)实时采集用户口语学习时的语音及视频信息,压缩编码后传送到服务器端;c)服务器接收到用户上传的数据解码后,对用户的语音进行切分,得到用户的每个发音单元的声音信息,并给出用户的每个发音单元与标准发音单元的声音信息匹配度;d)服务器从同时采集的视频信息中提取出每个发音单元对应的图像动作特征信息,并给出用户的每个发音单元与标准发音单元的图像特征信息匹配度。
上述的基于音视频双模态的口语学习监测方法,其中,所述声音信息匹配度采用隐马尔可夫模型,特征为梅尔倒谱特征,匹配度为隐马尔可夫模型后验概率输出。上述的基于音视频双模态的口语学习监测方法,其中,所述图像特征信息包括每个发音单元对应的嘴唇、牙齿和舌头的位置,所述图像特征信息匹配度为用户发音时的嘴唇、牙齿和舌头的位置与标准发音单元对应的位置偏差。
上述的基于音视频双模态的口语学习监测方法,其中,所述步骤c)中对用户的语音进行切分后给出每个发音单元的起止时间,所述步骤d)根据每个发音单元的起止时间从同时采集的视频信息中提取该发音单元对应的图像动作特征信息。
上述的基于音视频双模态的口语学习监测方法,其中,所述步骤d)根据每个发音单元的起止时间从同时采集的视频信息中提取N张图片,比较每一张图片与标准发音单元的图像特征信息匹配度后计算平均值,N为自然数。
上述的基于音视频双模态的口语学习监测方法,其中,所述提取发音单元对应的图像动作特征信息包括如下过程:对每一张图片先将人脸定位出来,然后采用基于颜色梯度场的边缘提取算法检测嘴唇、舌头和牙齿的轮廓位置。
本发明对比现有技术有如下的有益效果:本发明提供的基于音视频双模态的口语学习监测方法,通过同时采集用户口语学习中的语音及视频信息,并分别对语音及发音时的图像特征信息进行切分比对,从而能够帮助用户快速、准确地找出发音的不足及产生原因,减少对教师资源的依赖并大大提高学习效率。
附图说明
图1为本发明基于音视频双模态的口语学习监测流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
图1为本发明基于音视频双模态的口语学习监测流程示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海众实科技发展有限公司,未经上海众实科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310108831.6/2.html,转载请声明来源钻瓜专利网。