[发明专利]一种语料提取方法、装置及终端设备在审
| 申请号: | 201910077238.7 | 申请日: | 2019-01-24 |
| 公开(公告)号: | CN109858427A | 公开(公告)日: | 2019-06-07 |
| 发明(设计)人: | 周发升;何伟宝;詹逸;陈渤;杨敬慈;皮樾;李锦韬 | 申请(专利权)人: | 广州大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/46;G06F17/27;G10L15/26 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 颜希文;麦小婵 |
| 地址: | 510000 广东省广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语料 文本 语音图像数据 音视频数据 语音数据 语音图像 终端设备 字幕区域 字幕图像 余弦 文本文件 字幕文本数据 音视频字幕 录音环境 图像转换 文字单元 字幕文件 合并 截取 预设 帧数 匹配 申请 采集 转换 | ||
1.一种语料提取方法,其特征在于,至少包括如下步骤:
采集视频材料的音视频数据;
将未包含字幕文本数据的所述音视频数据作为第一处理数据,通过边缘检测和灰度差分统计,获取所述第一处理数据的字幕区域语音图像后,根据预设帧数对所述字幕区域语音图像进行截取,获取N个语音图像数据;其中,一个语音图像数据包括一个字幕图像和与所述字幕图像对应的第一语音数据;N为正整数;
通过OCR技术,将N个所述字幕图像转换为M个文本后,计算M个文本两两之间的余弦值,并将达到预设阈值的余弦值的两个所述文本,判断为属于同一所述字幕图像;其中,M≥N且M为正整数;
将判断属于同一所述字幕图像的多个文本进行合并,获得与N个字幕图像一一对应的N个合并文本后,将所述语音图像数据中与所述字幕图像对应的所述第一语音数据,根据N个合并文本进行切分,获得N个合并文本中每个第一文字单元的第一文字语音数据,即每个第一文字单元的语料。
2.根据权利要求1所述的语料提取方法,其特征在于,还包括:
将包含所述字幕文本数据的所述音视频数据作为第二处理数据,通过正则化技术解析所述字幕文本数据,并根据时间轴对所述第二处理数据的第二语音数据进行切分,获取多个第二文字语音数据后,根据每个所述第二文字语音数据,对所述字幕文本数据的每个第二文字单元一一进行标注,获取每个第二文字单元的语料。
3.根据权利要求1所述的语料提取方法,其特征在于,所述通过边缘检测和灰度差分统计,获取所述第一处理数据的字幕区语音图像后,根据预设帧数对所述字幕区域语音图像进行截取,获取N个语音图像数据,具体为:
将所述第一处理数据的帧图像进行灰度转换,并通过索贝尔算子对进行灰度转换后的帧图像进行边缘检测后,通过灰度差分统计对进行所述边缘检测后的所述帧图像的字幕区域进行定位,得到所述字幕区域语音图像后,根据所述预设帧数对所述字幕区域语音图像进行截取。
4.根据权利要求1所述的语料提取方法,其特征在于,所述通过OCR技术,将N个所述字幕图像转换为M个文本后,计算M个文本两两之间的余弦值,具体为:
通过OCR技术,将N个所述字幕图像转换为M个文本后,将M个文本两两组成对比组后,通过TF-IDF获得所述对比组的多个关键词,并根据所述多个关键词在所述对比组的出现频率,生成组成所述对比组的两个所述文本对应的两个词频向量后,根据所述两个词频向量,获得所述对比组的余弦值。
5.根据权利要求1所述的语料提取方法,其特征在于,所述将所述语音图像数据中与所述字幕图像对应的所述第一语音数据,根据N个合并文本进行切分,具体为:
将所述第一语音数据通过VAD技术进行处理,并将处理后的所述第一语音数据根据所述N个合并文本进行切分。
6.一种语料提取装置,其特征在于,包括:
数据采集模块,用于采集视频材料的音视频数据;
数据截取模块,用于将未包含字幕文本数据的所述音视频数据作为第一处理数据,通过边缘检测和灰度差分统计,获取所述第一处理数据的字幕区域语音图像后,根据预设帧数对所述字幕区域语音图像进行截取,获取N个语音图像数据;其中,一个语音图像数据包括一个字幕图像和与所述字幕图像对应的第一语音数据;N为正整数;
数据判断模块,用于通过OCR技术,将N个所述字幕图像转换为M个文本后,计算M个文本两两之间的余弦值,并将达到预设阈值的余弦值的两个所述文本,判断为属于同一所述字幕图像;其中,M≥N且M为正整数;
第一数据匹配模块,用于将判断属于同一所述字幕图像的多个文本进行合并,获得与N个字幕图像一一对应的N个合并文本后,将所述语音图像数据中与所述字幕图像对应的所述第一语音数据,根据N个合并文本进行切分,获得N个合并文本中每个第一文字单元的第一文字语音数据,即每个第一文字单元的语料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910077238.7/1.html,转载请声明来源钻瓜专利网。





