[发明专利]语音自动合成装置及方法有效

申请号：	201210133630.7	申请日：	2012-04-28
公开（公告）号：	CN103377651A	公开（公告）日：	2013-10-30
发明（设计）人：	孙艳庆;庞敏辉;苏腾荣;朱璇	申请（专利权）人：	北京三星通信技术研究有限公司;三星电子株式会社
主分类号：	G10L13/047	分类号：	G10L13/047
代理公司：	北京市立方律师事务所 11330	代理人：	郑瑜生
地址：	100125 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音自动合成装置方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及移动设备通信应用领域，尤其涉及一种语音自动合成装置及方法。

背景技术

现有的语音合成系统根据表征说话者的语音信号的数据合成，因此合成的语音信号听起来很生硬，表达不自然，并且不能达到确切地表达说话者的感情。而且，语音合成系统一旦成型，一般都是前篇一律、缺乏变化的。使用时间稍长，不仅会感觉很枯燥，使用率和吸引力很低；而且会给用户带来困意，在开车这种典型场景中非常危险。因此，用户需要更富有变化、以及更亲切的声音，例如希望合成的语音像自己的亲人、朋友、或者手机里的联系人。

现有的语音合成的数据库，往往是选取发音标准、饱满、且音质稳定的某个说话人，设计音素覆盖平衡、丰富的语料库，在专业的录音室中用专业的设备进行录制；然后邀请专业的语言学家进行精确地音素、韵律级别的标注；这个过程需要多遍的检查，对于录制不符合要求的部分要重新录制；最后再由专业技术人员模型的训练。或者也可以利用语音变换等技术实现声音的变换，只需利用较少的数据达到较高质量的效果。由此可以看出，制作专人的合成库，成本很昂贵，需要周期往往很长，而且不是每个人的声音都适合做合成系统。要达到高质量的语音变换，往往需要一定数量内容完全相同的平行语料库，即需要专门采集特定文本的语音数据，或者需要一定的人工标注。这在现实生活中很难实现。

美国专利申请US20090638648公开了一种文本-语音(TTS)的生成方法，适用于口语对话系统。其中公开有跟踪文本语音转换的发展进度的方法。该方法包括校验记录语音的语料库，使语料库与文本保持一致；为语料库中的每个发音生成对应的文件元组；利用文件元组中的各种参数追踪每个发音。该方法采用语音识别辅助TTS库的部分标注，但仍需要人工检查。进一步地，该方法只是利用语音识别技术进行辅助一部分标注，但是仍然需要录制语料库，并且对微小的标注错误很敏感。

有鉴于此，业界亟需一种语音自动合成方法，具备周期短、成本低且能够自动积累，无需数量庞大的平行语料库。

发明内容

为了解决上述技术问题，本发明的目的之一在于提供一种语音自动合成装置，包括：提取模块，用于从语音通话中自动提取出语音数据；增强检测模块，用于自动区分所述语音数据中的多个人的语音，对区分后的语音数据进行归类，并且动态更新归类后的语音数据；综合标注模块，用于自动标注经归类后的语音数据，并且生成标注信息；验证筛选模块，用于筛选出符合预定标准的语音数据，并且通过模型变换生成对应的合成模型；以及语音合成模块，用于根据所述合成模型输出相应用户的语音并且不断更新合成模型。

根据本发明的另一实施方式，所述增强检测模块包括：语音增强单元，用于增强语音信号；彩铃音乐检测单元，用于检测并删除与语音无关的彩铃和音乐信息；语音检测单元，用于检测增强后的语音数据；以及分段归类单元，用于区分所述语音数据，并且将区分后的语音数据进行归类。

根据本发明的另一实施方式，所述语音增强单元包括：噪音滤波子单元，用于过滤所述语音数据中的噪音；以及回音消除子单元，用于消除所述语音数据中的回音。

根据本发明的另一实施方式，所述分段归类单元包括：用户日志子单元，用于根据所述语音数据的特征将多个人的语音隔开；分段子单元，用于将多个人语音的切换部分隔开，并且分段计算所述切换部分的距离；以及归类子单元，用于依次将所述切换部分分别合并成多个人的语音，检测并删掉重合的片段。

根据本发明的另一实施方式，所述综合标注模块包括：特征提取单元，用于提取所述语音数据的特征；基频提取单元，用于提取所述语音数据的基频；以及语音识别单元，用于识别所述语音数据。

根据本发明的另一实施方式，所述语音数据的特征包括：词、音素、时间边界点、停顿时长、基频、或音调中的至少一种信息。

根据本发明的另一实施方式，所述语音识别单元包括：第一识别子单元，设置于所述移动终端；以及第二识别子单元，设置于所述网络服务器。

根据本发明的另一实施方式，所述语音识别单元包括：声学模型子单元、语言模型子单元、或解码器中的至少一个部件。

根据本发明的另一实施方式，所述验证筛选模块包括：发音质量评估单元，用于给所述声学模型和所述语音模型进行打分评估；验证单元，用于验证语音数据的识别结果；以及筛选单元，用于筛选出符合预定标准的语音数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京三星通信技术研究有限公司;三星电子株式会社，未经北京三星通信技术研究有限公司;三星电子株式会社许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210133630.7/2.html，转载请声明来源钻瓜专利网。

上一篇：一种户外长椅
下一篇：用于空调装配过程中涂抹润滑油工艺的过滤网装置及方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音自动合成装置及方法有效

专利文献下载