[发明专利]一种基于手持智能终端的场景化朗读音频制作方法及系统在审
申请号: | 201711414780.4 | 申请日: | 2017-12-21 |
公开(公告)号: | CN108536655A | 公开(公告)日: | 2018-09-14 |
发明(设计)人: | 孙仉茂;纪德财 | 申请(专利权)人: | 广州市讯飞樽鸿信息技术有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/30;G06K9/20;G10L13/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510665 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能终端 场景化 音频制作 朗读 文字内容 语音合成 背景音 获取信息 手动设置 新闻播报 信息内容 音频朗读 音频文件 用户体验 展示内容 知识传播 转换效率 自动选择 音库 音色 应用 采集 保存 融合 校园 节目 故事 军事 | ||
本发明提供一种基于手持智能终端的场景化朗读音频制作方法及系统。通过OCR识别、语音合成等新技术的应用,提出了基于手持智能终端的场景化朗读音频制作解决方案,提高信息内容的转换效率,降低信息与知识传播的成本,减少人们对获取信息与知识的代价,提升人们的用户体验。通过对OCR识别、语音合成等新技术的应用,对手持智能终端的展示内容进行采集并形成文字内容,通过对文字内容进行场景化识别,自动选择或手动设置背景音(如新闻播报的严谨、军事节目的激昂、故事文摘的轻快、校园的欢快等),设置音频朗读速度,利用播音员音库的声音音色与背景音交叉融合生成音频文件,并提供给使用者进行保存与分享。
技术领域
本发明涉及文字自动播报技术领域,更具体地,涉及一种基于手持智能终端的场景化朗读音频制作方法及系统。
背景技术
以智能手机为代表的智能终端逐渐改变了人类的生活,现代人每天有海量的信息与知识均需要花费时间与精力去手动获取,双眼双手被占用加重现代人的负担,人们无法在走动或做其他事情的时候实时观看;互联网行业的自媒体人发布的优质文稿,在形成音频的过程中,找专业配音员的录制成本高,或使用常规的语音合成软件后的声音又过于机械化与乏味,降低听众的收听意愿。
发明内容
本发明旨在至少在一定程度上解决上述技术问题。
本发明的首要目的是提供一种基于手持智能终端的场景化朗读音频制作方法,通过对OCR识别、语音合成等新技术的应用,对手持智能终端的展示内容进行采集并形成文字内容,通过对文字内容进行场景化识别,并且生成与使用场景相匹配的音频文件。
本发明的进一步目的是提供一种基于手持智能终端的场景化朗读音频制作系统。
为解决上述技术问题,本发明的技术方案如下:
一种基于手持智能终端的场景化朗读音频制作方法,包括以下步骤:
S1:使用手持智能终端获取信息内容,并转化为文字格式;
S2:对文字内容进行格式化处理,包括自动分段、删除无效字符,最终获得有效的纯文本格式的内容;
S3:对文字内容的关键字进行自动识别,智能地预判该内容的使用场景;
S4:根据预判的使用场景选择播音员音库、背景音、语速和语调;
S5:生成场景化音频文件:根据所选择的播音员音库、语速和语调,通过语音合成技术将文字内容转化为音频,并加入背景音,生成MP3、AMR、WAV、WMA等文件格式的音频文件;
S6:将生成的音频文件提供给用户保存与分享。
优选地,所述手持智能终端为智能手机、iPad、平板电脑、PC电脑或智能手表。
优选地,步骤S1中,获取信息内容的途径包括以下四种方式:
通过文档文件导入,支持但不限于TXT、WORD、PPT、PDF等文件;
通过输入网页URL链接,自动识别与抓取文字内容;
通过手持智能终端在海报、杂志、报纸、电脑、平板等媒介上展示的文字、图片、视频等内容进行拍照,通过OCR技术获取文字内容;
通过编辑框录入内容,支持手动编辑文字,或复制文字后粘贴在编辑框中。
优选地,步骤S3中,所述使用场景包括但不限于新闻播报、军武介绍、故事文摘、校园广播等。
优选地,步骤S4具体包括:
S4.1:选择播音员音库:根据预判的使用场景自动选择或手动选择音库音色,如男声的低沉、女声的柔和细腻、明星的幽默等;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市讯飞樽鸿信息技术有限公司,未经广州市讯飞樽鸿信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711414780.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:识别文本展示方法及装置
- 下一篇:基于WFST的文本正则化方法及系统