[发明专利]一种基于DIVA神经网络模型的汉语元音发音方法有效
| 申请号: | 201210239129.9 | 申请日: | 2012-07-10 |
| 公开(公告)号: | CN102880906A | 公开(公告)日: | 2013-01-16 |
| 发明(设计)人: | 张少白;刘欣;徐磊;徐歆冰 | 申请(专利权)人: | 南京邮电大学 |
| 主分类号: | G06N3/08 | 分类号: | G06N3/08;G06F3/14 |
| 代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 许方 |
| 地址: | 210003 江苏省南京*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 diva 神经网络 模型 汉语 元音 发音 方法 | ||
技术领域
本发明涉及一种发音方法,更具体地说是一种基于DIVA神经网络模型的汉语元音发音方法。
背景技术
将大脑中的思维过程“阅读出来,这一直是人类的一个梦想。波士顿大学语音实验室的弗兰克·冈瑟教授(Guenther.F.H.)提出的DIVA自适应神经网络模型帮助人们实现了这一梦想。他发明的DIVA模型依赖的语音背景是英文的29个基本音素,图5中给出了DIVA模型依赖的29个英文音素。对于以汉语为母语的中国人来讲,要“阅读”其思维过程,需要对汉语语音加工过程中的大脑机制进行深入研究和讨论。DIVA(Directions Into of Articulators)模型是一种关于语音生成与获取后描述相关处理过程的数学模型,主要用来仿真和描述有关大脑中涉及语音生成和语音理解区域的相关功能。可以说,它是一种为了生成单词、音节或音素,用来控制模拟声道运动的自适应神经网络模型。该网络模型在计算机中学习控制模拟声道的运动,以产生相应的语音。学习完成之后,模型能够产生语音的任意组合。DIVA网络模型为许多长期研究的语音生成现象包括运动等效、语境变化、说话时速度的影响、预期的协同发音和结转协同发音提供了一个统一的解释。
对于人类语言能力统一计算模型的需求推动着DIVA模型的发展,自冈瑟教授在1994年首次提出DIVA网络模型以来涌现出了不少新的版本,不同版本的DIVA模型大致地反映了神经解剖学和大脑有关区域的关联性。到目前为止,DIVA网络的定义和测试相对而言仍然是最彻底的,并且是唯一应用伪逆控制方案的模型,这种控制方案对于人类发音器官的运动学数据提供了十分精确的解释。
要让DIVA模型“读懂”中文发音者的思想,让说汉语的人能将其思维过程用人工语音合成系统自然的表述出来,需要建立正确的映射关系,这涉及到两方面的知识:
(1)汉语发音的脑机制研究和脑区成像研究;
(2)DIVA网络模型对成像结果的再利用。
DIVA模型的语言基础是英文的29个基本音素。对于母语为汉语的中国人来说DIVA模型是否也能完成中文语音生成和获取的任务呢?汉语是一门有语调的语言,它不像英语的语音识别是通过仅凭音节的识别就能获得很好的识别结果。对于汉语的识别,音调和韵律起着非常重要的作用。相同的音节不同的音调也会导致识别为不同的汉字。语音加工是语言认知的核心功能,其脑机制是当前研究者关心的重要问题,有关语音加工脑机制的研究,既包括听觉通道中语音加工的脑机制,也包括视觉通道中语音加工的脑机制。这个过程涉及到不同语言持有者在说话的时候,其发音过程对大脑皮层中布洛卡(Broca)区以及相关区域的不同影响。一系列的实验结果发现左侧颞上回后部的威尔尼克区与语音理解有关,左侧额下回的布洛卡区与语音产生有关。有多个脑区参与了听觉和视觉通道中的语音加工过程,包括左侧额下回、左侧颞上回、左侧顶下小叶、以及左侧颞顶枕联合区等脑区;而且某些脑区的功能似乎并不单一,例如左侧额下回既负责语音复述又负责语音的短时储存。各脑区在功能上不是孤立的,而是相互联系与影响,构成一个神经网络共同负责语音加工的过程。
如果将DIVA模型应用到中文发音的语音合成任务中,就要对其已有的英文因素—脑区映射关系进行重新考虑和修改,找到适合中文—脑区的映射关系。其中最重要的一个步骤就是汉语语音建模的问题。过去的几十年里,在中文语音识别系统中,研究人员分别考虑用过不同粒度的建模单元,这其中包括:词(word)、音节(syllable)、声韵母(initial/final,IF)、音素(phoneme)等。
以词或者音节为粒度去构建建模单元集,往往会造成建模单元数目过于庞大,从而出现训练数据稀疏的问题,导致模型参数得不到充分而准确的估计,而且还会使解码的搜索空间增大,大大降低解码效率,因此一般只适合用在一些小词汇量的中文识别系统(如命令词或者数字串识别系统)中。
以声韵母构建建模单元集,在一定程度上反映了中文语音学的知识和特点,并且被成功地用于搭建大词汇量连续语音识别系统,也是目前被广泛认可的建模单元集。但是与英文音素建模单元集相比,声韵母建模单元集的建模单元数目还是比较多,特别是在带调的情况下。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210239129.9/2.html,转载请声明来源钻瓜专利网。





