[发明专利]一种基于自注意力机制的中文普通话字音转换方法有效

申请号：	201911395278.2	申请日：	2019-12-30
公开（公告）号：	CN111145718B	公开（公告）日：	2022-06-07
发明（设计）人：	张鹏远;尚增强;颜永红	申请（专利权）人：	中国科学院声学研究所
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/10;G10L25/30;G06K9/62;G06N3/04
代理公司：	北京亿腾知识产权代理事务所(普通合伙) 11309	代理人：	陈霁
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于注意力机制中文普通话字音转换方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种中文普通话字音转换神经网络模型的训练方法，所述神经网络模型包括嵌入层、自注意力层、分类层，所述训练方法包括：

统计中文普通话语料中的汉字及其拼音，建立汉字和拼音的映射表；

将所述中文普通话语料中的语句输入所述神经网络模型的嵌入层，根据所述映射表，所述嵌入层将所述语句中的汉字映射为字嵌入向量；

所述自注意力层利用自注意机制将所述字嵌入向量映射为高维向量；

根据所述高维向量，确认所述语句中的词的词性种类，并给所述词打上所述词性种类的标签；

所述分类层根据所述高维向量以及所述标签，确定所述汉字的普通话发音，并将其输出；或者，

所述分类层根据所述高维向量，对所述汉字的声母、韵母、声调分别进行分类且结合所述分类结果，确定所述汉字的普通话发音，并将其输出；

比较所述普通话发音和所述中文普通话语料的语句中所述汉字的标签发音，判断所述普通话发音的发音准确性，其中，若所述普通话发音根据对所述汉字的声母、韵母、声调分别进行分类得到，当且仅当声母、韵母、声调三者分类的结果均符合所述标签发音，判定所述普通话发音的发音准确性为准确；根据多个所述汉字的普通话发音的发音准确性确定所述神经网络模型的准确率，根据所述准确率是否达到期望标准，确定是否完成所述神经网络模型的训练；若结果为未达到，

则继续进行所述将所述中文普通话语料中的语句输入所述神经网络模型的嵌入层，至所述确定是否完成所述神经网络模型的训练的过程；

若结果为达到，则完成所述神经网络模型的训练。

2.根据权利要求1所述的训练方法，其特征在于，所述映射表，由字嵌入向量构成，所述字嵌入向量的维度设为256，所述中文普通话语料统计中汉字总数为C个，总发音数由P个，所述映射表由C个字嵌入向量构成，所述确定所述汉字发音为确认P个总发音中的一个。

3.根据权利要求1所述的训练方法，其特征在于，所述词性的种类为34种。

4.一种中文普通话字音转换方法，所述字音转换通过神经网络模型，所述神经网络模型包括嵌入层、自注意力层、分类层，所述方法包括：

将中文普通话语句输入所述神经网络模型的嵌入层，所述嵌入层将所述中文普通话语句中的汉字映射为字嵌入向量；

所述自注意力层利用自注意机制将所述字嵌入向量映射为高维向量；

所述分类层根据所述高维向量，确定所述汉字的普通话发音，并将其输出；或者，

所述分类层根据所述高维向量，对所述汉字的声母、韵母、声调分别进行分类且结合所述分类结果，确定所述汉字的普通话发音，并将其输出；

所述神经网络模型由权利要求1-3中任一项所述方法训练得到。

5.根据权利要求4所述的方法，其特征在于，对所述汉字的声调进行分类中,采用条件随机场估计发音习惯声调转移概率。

6.根据权利要求4所述的方法，所述利用自注意机制还包括，根据汉字在语句的相对位置信息计算自注意力权重。