[发明专利]一种基于手持智能终端的场景化朗读音频制作方法及系统在审

申请号：	201711414780.4	申请日：	2017-12-21
公开（公告）号：	CN108536655A	公开（公告）日：	2018-09-14
发明（设计）人：	孙仉茂;纪德财	申请（专利权）人：	广州市讯飞樽鸿信息技术有限公司
主分类号：	G06F17/22	分类号：	G06F17/22;G06F17/30;G06K9/20;G10L13/08
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	510665 广东省广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	智能终端场景化音频制作朗读文字内容语音合成背景音获取信息手动设置新闻播报信息内容音频朗读音频文件用户体验展示内容知识传播转换效率自动选择音库音色应用采集保存融合校园节目故事军事
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于手持智能终端的场景化朗读音频制作方法及系统。通过OCR识别、语音合成等新技术的应用，提出了基于手持智能终端的场景化朗读音频制作解决方案，提高信息内容的转换效率，降低信息与知识传播的成本，减少人们对获取信息与知识的代价，提升人们的用户体验。通过对OCR识别、语音合成等新技术的应用，对手持智能终端的展示内容进行采集并形成文字内容，通过对文字内容进行场景化识别，自动选择或手动设置背景音(如新闻播报的严谨、军事节目的激昂、故事文摘的轻快、校园的欢快等)，设置音频朗读速度，利用播音员音库的声音音色与背景音交叉融合生成音频文件，并提供给使用者进行保存与分享。

技术领域

本发明涉及文字自动播报技术领域，更具体地，涉及一种基于手持智能终端的场景化朗读音频制作方法及系统。

背景技术

以智能手机为代表的智能终端逐渐改变了人类的生活，现代人每天有海量的信息与知识均需要花费时间与精力去手动获取，双眼双手被占用加重现代人的负担，人们无法在走动或做其他事情的时候实时观看；互联网行业的自媒体人发布的优质文稿，在形成音频的过程中，找专业配音员的录制成本高，或使用常规的语音合成软件后的声音又过于机械化与乏味，降低听众的收听意愿。

发明内容

本发明旨在至少在一定程度上解决上述技术问题。

本发明的首要目的是提供一种基于手持智能终端的场景化朗读音频制作方法，通过对OCR识别、语音合成等新技术的应用，对手持智能终端的展示内容进行采集并形成文字内容，通过对文字内容进行场景化识别，并且生成与使用场景相匹配的音频文件。

本发明的进一步目的是提供一种基于手持智能终端的场景化朗读音频制作系统。

为解决上述技术问题，本发明的技术方案如下：

一种基于手持智能终端的场景化朗读音频制作方法，包括以下步骤：

S1：使用手持智能终端获取信息内容，并转化为文字格式；

S2：对文字内容进行格式化处理，包括自动分段、删除无效字符，最终获得有效的纯文本格式的内容；

S3：对文字内容的关键字进行自动识别，智能地预判该内容的使用场景；

S4：根据预判的使用场景选择播音员音库、背景音、语速和语调；

S5：生成场景化音频文件：根据所选择的播音员音库、语速和语调，通过语音合成技术将文字内容转化为音频，并加入背景音，生成MP3、AMR、WAV、WMA等文件格式的音频文件；

S6：将生成的音频文件提供给用户保存与分享。