[发明专利]语音自动合成装置及方法有效

专利信息
申请号: 201210133630.7 申请日: 2012-04-28
公开(公告)号: CN103377651A 公开(公告)日: 2013-10-30
发明(设计)人: 孙艳庆;庞敏辉;苏腾荣;朱璇 申请(专利权)人: 北京三星通信技术研究有限公司;三星电子株式会社
主分类号: G10L13/047 分类号: G10L13/047
代理公司: 北京市立方律师事务所 11330 代理人: 郑瑜生
地址: 100125 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语音 自动 合成 装置 方法
【说明书】:

技术领域

本发明涉及移动设备通信应用领域,尤其涉及一种语音自动合成装置及方法。

背景技术

现有的语音合成系统根据表征说话者的语音信号的数据合成,因此合成的语音信号听起来很生硬,表达不自然,并且不能达到确切地表达说话者的感情。而且,语音合成系统一旦成型,一般都是前篇一律、缺乏变化的。使用时间稍长,不仅会感觉很枯燥,使用率和吸引力很低;而且会给用户带来困意,在开车这种典型场景中非常危险。因此,用户需要更富有变化、以及更亲切的声音,例如希望合成的语音像自己的亲人、朋友、或者手机里的联系人。

现有的语音合成的数据库,往往是选取发音标准、饱满、且音质稳定的某个说话人,设计音素覆盖平衡、丰富的语料库,在专业的录音室中用专业的设备进行录制;然后邀请专业的语言学家进行精确地音素、韵律级别的标注;这个过程需要多遍的检查,对于录制不符合要求的部分要重新录制;最后再由专业技术人员模型的训练。或者也可以利用语音变换等技术实现声音的变换,只需利用较少的数据达到较高质量的效果。由此可以看出,制作专人的合成库,成本很昂贵,需要周期往往很长,而且不是每个人的声音都适合做合成系统。要达到高质量的语音变换,往往需要一定数量内容完全相同的平行语料库,即需要专门采集特定文本的语音数据,或者需要一定的人工标注。这在现实生活中很难实现。

美国专利申请US20090638648公开了一种文本-语音(TTS)的生成方法,适用于口语对话系统。其中公开有跟踪文本语音转换的发展进度的方法。该方法包括校验记录语音的语料库,使语料库与文本保持一致;为语料库中的每个发音生成对应的文件元组;利用文件元组中的各种参数追踪每个发音。该方法采用语音识别辅助TTS库的部分标注,但仍需要人工检查。进一步地,该方法只是利用语音识别技术进行辅助一部分标注,但是仍然需要录制语料库,并且对微小的标注错误很敏感。

有鉴于此,业界亟需一种语音自动合成方法,具备周期短、成本低且能够自动积累,无需数量庞大的平行语料库。

发明内容

为了解决上述技术问题,本发明的目的之一在于提供一种语音自动合成装置,包括:提取模块,用于从语音通话中自动提取出语音数据;增强检测模块,用于自动区分所述语音数据中的多个人的语音,对区分后的语音数据进行归类,并且动态更新归类后的语音数据;综合标注模块,用于自动标注经归类后的语音数据,并且生成标注信息;验证筛选模块,用于筛选出符合预定标准的语音数据,并且通过模型变换生成对应的合成模型;以及语音合成模块,用于根据所述合成模型输出相应用户的语音并且不断更新合成模型。

根据本发明的另一实施方式,所述增强检测模块包括:语音增强单元,用于增强语音信号;彩铃音乐检测单元,用于检测并删除与语音无关的彩铃和音乐信息;语音检测单元,用于检测增强后的语音数据;以及分段归类单元,用于区分所述语音数据,并且将区分后的语音数据进行归类。

根据本发明的另一实施方式,所述语音增强单元包括:噪音滤波子单元,用于过滤所述语音数据中的噪音;以及回音消除子单元,用于消除所述语音数据中的回音。

根据本发明的另一实施方式,所述分段归类单元包括:用户日志子单元,用于根据所述语音数据的特征将多个人的语音隔开;分段子单元,用于将多个人语音的切换部分隔开,并且分段计算所述切换部分的距离;以及归类子单元,用于依次将所述切换部分分别合并成多个人的语音,检测并删掉重合的片段。

根据本发明的另一实施方式,所述综合标注模块包括:特征提取单元,用于提取所述语音数据的特征;基频提取单元,用于提取所述语音数据的基频;以及语音识别单元,用于识别所述语音数据。

根据本发明的另一实施方式,所述语音数据的特征包括:词、音素、时间边界点、停顿时长、基频、或音调中的至少一种信息。

根据本发明的另一实施方式,所述语音识别单元包括:第一识别子单元,设置于所述移动终端;以及第二识别子单元,设置于所述网络服务器。

根据本发明的另一实施方式,所述语音识别单元包括:声学模型子单元、语言模型子单元、或解码器中的至少一个部件。

根据本发明的另一实施方式,所述验证筛选模块包括:发音质量评估单元,用于给所述声学模型和所述语音模型进行打分评估;验证单元,用于验证语音数据的识别结果;以及筛选单元,用于筛选出符合预定标准的语音数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三星通信技术研究有限公司;三星电子株式会社,未经北京三星通信技术研究有限公司;三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210133630.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top