[发明专利]字幕生成方法、字幕测试方法和字幕处理设备在审
| 申请号: | 202010895488.4 | 申请日: | 2020-08-31 |
| 公开(公告)号: | CN114125571A | 公开(公告)日: | 2022-03-01 |
| 发明(设计)人: | 张骞;蒋林;余朝晖 | 申请(专利权)人: | 伊普西龙信息科技(北京)有限公司 |
| 主分类号: | H04N21/488 | 分类号: | H04N21/488;G06F40/211 |
| 代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 於菪珉 |
| 地址: | 100102 北京市朝阳区广顺北大*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 字幕 生成 方法 测试 处理 设备 | ||
本公开涉及一种字幕生成方法、字幕测试方法和字幕处理设备。其中,字幕生成方法包括:获取字幕源文本,其中,所述字幕源文本包括一条或多条分隔的语句;针对每条语句,根据预设字数阈值和语句中的完整词的位置,将语句分割成一条或多条预分割语句,其中,预分割语句的字数小于或等于所述预设字数阈值,且预分割语句以完整词开始和结束;根据完整词中的起始词和末尾词调整预分割语句,以生成子语句,其中,子语句不以起始词结束、且不以末尾词开始;以及分别将每条子语句生成为单条字幕。
技术领域
本公开涉及自然语言处理技术领域,具体来说,涉及一种字幕生成方法、字幕测试方法和字幕处理设备。
背景技术
为了改善视频的观看体验,在制作视频时通常需要添加字幕。在传统方式中,字幕可以被手动地添加,但这往往需要耗费大量的用于制作字幕的时间。此外,手动地调整字幕的字号、位置等参数也是十分不便的。随着自然语言处理技术的发展,可以通过识别视频中的语音来自动地生成字幕。然而,在自动生成的字幕中,很容易出现断句不合理的现象,具体可以包括:单条字幕中的字数过多而导致的阅读不便,断句位置不合理而导致的语义不通顺等问题,使得视频的观看体验变差。
发明内容
本公开的目的在于提供一种字幕生成方法、字幕测试方法和字幕处理设备。
根据本公开的第一方面,提供了一种字幕生成方法,所述字幕生成方法包括:
获取字幕源文本,其中,所述字幕源文本包括一条或多条分隔的语句;
针对每条语句,根据预设字数阈值和语句中的完整词的位置,将语句分割成一条或多条预分割语句,其中,预分割语句的字数小于或等于所述预设字数阈值,且预分割语句以完整词开始和结束;
根据完整词中的起始词和末尾词调整预分割语句,以生成子语句,其中,子语句不以起始词结束、且不以末尾词开始;以及
分别将每条子语句生成为单条字幕。
在一些实施例中,所述字幕源文本是基于自然语言处理对语音进行识别而生成的。
在一些实施例中,针对每条语句,根据预设字数阈值和语句中的完整词的位置,将语句分割成一条或多条预分割语句包括:
获取语句的字数;
比较所述语句的字数与第一预设字数;
当所述语句的字数小于或等于所述第一预设字数时,将所述语句作为预分割语句;
其中,所述第一预设字数小于或等于所述预设字数阈值。
在一些实施例中,所述第一预设字数为10至14。
在一些实施例中,针对每条语句,根据预设字数阈值和语句中的完整词的位置,将语句分割成一条或多条预分割语句还包括:
当所述语句的字数大于所述第一预设字数时,比较所述语句的字数与第二预设字数;
当所述语句的字数小于或等于所述第二预设字数时,从所述语句的第一分割位置处开始向后查找完整词;
当查找到最近邻于所述第一分割位置的完整词时,在该完整词的结束位置处分割所述语句,以生成两条预分割语句;
其中,所述第二预设字数大于所述第一预设字数。
在一些实施例中,所述第二预设字数X2与所述第一预设字数X1之间满足:X2=(X1-2)*2。
在一些实施例中,所述语句的在所述第一分割位置之前的字数与在所述第一分割位置之后的字数之间的差的绝对值为0或1。
在一些实施例中,针对每条语句,根据预设字数阈值和语句中的完整词的位置,将语句分割成一条或多条预分割语句还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于伊普西龙信息科技(北京)有限公司,未经伊普西龙信息科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010895488.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种通信方法及通信装置
- 下一篇:用于频谱共享的方法、装置和系统





