[发明专利]合成字典制作装置及合成字典制作方法有效
申请号: | 201210058572.6 | 申请日: | 2012-03-07 |
公开(公告)号: | CN103021402A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 橘健太郎;森田真弘;笼岛岳彦 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G10L13/02 | 分类号: | G10L13/02 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 刘瑞东;陈海红 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 合成 字典 制作 装置 制作方法 | ||
优先权基础申请等关联申请的引用
本申请以日本专利申请2011-209989(申请日:2011年9月26日)为基础,享受该申请的优先权。本申请通过参照该申请,包含该申请的全部内容。
技术领域
本发明的实施方式涉及合成字典(词典)制作装置及合成字典制作方法。
背景技术
已知有将任意的文本变换为合成波形的声音合成技术。为了使用声音合成技术再现某特定的用户的音质,必须将该用户的声音大量录制,使用该录制波形制作声音合成字典。为了实现该目的,提出了使用户朗读预定的多个句子,使用将其录制(录音)的录制波形制作用户定制的声音合成字典的系统。
但是,上述系统中,声音合成字典的制作中需要全部朗读预定的句子的声音的录制波形,无法在录制的中途阶段确认合成波形的音质。从而,即使合成波形的音质足够高,也产生用户继续录制等的状况,存在声音合成字典的制作效率降低的问题。
发明内容
本实施方式目的是提供提高声音合成字典的制作效率的合成字典制作装置。
根据实施方式,合成字典制作装置具备提示单元、录制单元、要否判断单元、字典制作单元和声音合成单元。提示单元向用户提示从句子存储单元所存储的N个(N是自然数,N≥2)句子依次选择的第1句子(语句)。录制单元将朗读上述第1句子的用户的声音录制,将该录制波形与上述第1句子相关联存储。要否判断单元,在上述录制单元中存储M个(M是自然数,1≤M<N)上述第1句子的录制波形的状态下,判断要否制作声音合成字典。字典制作单元,在判断需要声音合成字典的制作的场合,制作声音合成字典。声音合成单元,采用由上述字典制作单元制作的声音合成字典,将第2句子变换为合成波形。
根据本实施方式,可提供声音合成字典的制作效率提高的合成字典制作装置。
附图说明
图1是第1实施方式的合成字典制作装置的方框图。
图2是实施方式的合成字典制作装置的硬件构成的示图。
图3是实施方式的合成字典制作装置的流程图。
图4是实施方式的合成字典制作装置的接口的示图。
图5是第2实施方式的合成字典制作装置的方框图。
具体实施方式
以下,参照附图说明本发明的实施方式。
(第1实施方式)
第1实施方式的合成字典制作装置是将朗读句子的用户的声音录制,使用该录制波形制作用户定制的声音合成字典的装置。通过利用由本装置制作的声音合成字典的声音合成,用户可以自身的音质朗读任意的句子。
图1是第1实施方式的合成字典制作装置100的方框图。本实施方式的合成字典制作装置具备:存储预定的N个(N是自然数,N≥2)句子的句子存储部109;向用户提示从句子存储部109存储的N个句子依次选择的第1句子的提示部110;将朗读第1句子的用户的声音录制,将该录制波形与第1句子相关联存储的录制部101;根据第1句子和其录制波形提取特征量的特征提取部102;存储提取的特征量的特征量存储部103;判断要否制作声音合成字典的要否判断部104;在要否判断部104判断需要声音合成字典的制作的场合,用特征量制作声音合成字典的字典制作部105;存储制作的声音合成字典的字典存储部106;用声音合成字典将第2句子变换为合成波形的声音合成部107;和评价合成波形的音质的音质评价部108。
这里,要否判断部104在录制部101中存储了M个(M是自然数,1≤M<N)第1句子的录制波形的状态下,即,预定的N个句子的朗读声音的录制未结束的状态下,根据来自用户的声音合成字典的制作指示、上述变量M、录制部101存储的全部录制波形的数据量的至少一个,判断要否制作声音合成字典。
另外,合成字典制作装置100在音质评价部108中评价合成波形的音质没有问题的场合,停止提示部110中第1句子的提示,停止录制部101中声音的录制。
这样,本实施方式的合成字典制作装置根据要否制作声音合成字典的判断结果,即使在录制的中途阶段,也可用迄今为止存储的录制波形和与其相关联的第1句子制作声音合成字典。从而,用户可以在全部朗读预定的N个句子前,确认声音合成字典生成的合成波形的音质。
另外,本实施方式的合成字典制作装置在音质评价部108中评价合成波形的音质没有问题的场合,停止用户的声音的录制。从而,可以避免用户朗读必要以上的句子,提高声音合成字典的制作效率。
(硬件构成)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210058572.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种翻盖式下水器
- 下一篇:水电站厂房墙体与板梁分期浇筑的连接方法及结构