[发明专利]一种语料提取方法、装置及终端设备在审
| 申请号: | 201910077238.7 | 申请日: | 2019-01-24 |
| 公开(公告)号: | CN109858427A | 公开(公告)日: | 2019-06-07 |
| 发明(设计)人: | 周发升;何伟宝;詹逸;陈渤;杨敬慈;皮樾;李锦韬 | 申请(专利权)人: | 广州大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/46;G06F17/27;G10L15/26 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 颜希文;麦小婵 |
| 地址: | 510000 广东省广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本申请公开了一种语料提取方法、装置及终端设备,所述方法包括:通过采集音视频数据,并获取未包含字幕文本数据的音视频数据的字幕区域语音图像后,将字幕区域语音图像按预设帧数进行截取,获取多个语音图像数据;将多个语音图像数据中的字幕图像转换成多个文本,计算多个文本两两之间的余弦值,并将余弦值达到阈值的文本进行合并;将与字幕图像对应的第一语音数据根据合并后的文本进行切分,得到每个第一文字单元的语料。与现有技术相比,本申请通过将无字幕文件的音视频字幕图像转换为文本文件后与语音数据进行匹配,从而提取语料的方法,克服了需通过多个录音环境进行语料提取的问题,进而达到了减少语料提取的成本的目的。 | ||
| 搜索关键词: | 语料 文本 语音图像数据 音视频数据 语音数据 语音图像 终端设备 字幕区域 字幕图像 余弦 文本文件 字幕文本数据 音视频字幕 录音环境 图像转换 文字单元 字幕文件 合并 截取 预设 帧数 匹配 申请 采集 转换 | ||
【主权项】:
1.一种语料提取方法,其特征在于,至少包括如下步骤:采集视频材料的音视频数据;将未包含字幕文本数据的所述音视频数据作为第一处理数据,通过边缘检测和灰度差分统计,获取所述第一处理数据的字幕区域语音图像后,根据预设帧数对所述字幕区域语音图像进行截取,获取N个语音图像数据;其中,一个语音图像数据包括一个字幕图像和与所述字幕图像对应的第一语音数据;N为正整数;通过OCR技术,将N个所述字幕图像转换为M个文本后,计算M个文本两两之间的余弦值,并将达到预设阈值的余弦值的两个所述文本,判断为属于同一所述字幕图像;其中,M≥N且M为正整数;将判断属于同一所述字幕图像的多个文本进行合并,获得与N个字幕图像一一对应的N个合并文本后,将所述语音图像数据中与所述字幕图像对应的所述第一语音数据,根据N个合并文本进行切分,获得N个合并文本中每个第一文字单元的第一文字语音数据,即每个第一文字单元的语料。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910077238.7/,转载请声明来源钻瓜专利网。





