[发明专利]语言模型生成方法和电子设备有效

申请号：	202010752811.2	申请日：	2020-07-30
公开（公告）号：	CN111768765B	公开（公告）日：	2022-08-19
发明（设计）人：	尹旭贤	申请（专利权）人：	华为技术有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/26
代理公司：	北京汇思诚业知识产权代理有限公司 11444	代理人：	周放
地址：	518129 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语言模型生成方法电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语言模型生成方法，其特征在于，包括：

获得每个拼音的常用错误音、以及所述常用错误音的分布概率；

获取正确拼音序列；

根据所述每个拼音的常用错误音、以及所述常用错误音的分布概率，为所述正确拼音序列生成对应的错误拼音序列；

使用所述正确拼音序列以及对应的错误拼音序列对预设语言模型进行训练。

2.根据权利要求1所述的方法，其特征在于，所述获得每个拼音的常用错误音、以及所述常用错误音的分布概率，包括：

将预设训练集中的每个语音信号分别输入预设声学模型，得到每个所述语音信号的拼音识别结果，每个所述语音信号的拼音识别结果包括：所述声学模型识别出的所述语音信号的第一拼音序列、以及所述第一拼音序列中每个拼音的概率值；所述训练集中包括：语音信号、以及所述语音信号的实际拼音序列；

将每个所述语音信号的拼音识别结果与对应的实际拼音序列进行比对，统计所述实际拼音序列中每个拼音被所述声学模型识别出的错误音；

根据所述实际拼音序列中的每个拼音的错误音确定每个所述拼音的常用错误音；

对于所述实际拼音序列中的每个拼音，根据该拼音的每个所述常用错误音的概率值计算该拼音的每个所述常用错误音的分布概率。

3.根据权利要求2所述的方法，其特征在于，所述根据所述实际拼音序列中的每个拼音的错误音确定每个所述拼音的常用错误音，包括：

对于每个所述拼音的每个错误音，基于拼音识别结果中该错误音的概率值计算该错误音的概率值总和；对于每个所述拼音，选择概率值总和超过预设第一阈值的错误音作为该拼音的常用错误音。

4.根据权利要求2所述的方法，其特征在于，所述根据所述实际拼音序列中的每个拼音的错误音确定每个所述拼音的常用错误音，包括：

根据预先设置的每个拼音的模糊音对每个所述拼音的错误音进行筛选，将每个所述拼音的模糊音中包括的所述错误音确定为每个所述拼音的常用错误音。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述每个拼音的常用错误音、以及所述常用错误音的分布概率，为所述正确拼音序列生成对应的错误拼音序列，包括：

随机生成m个1至M之间的数值，m的数值取值范围为[1，M]，随机生成的m个数值互不相同；M是所述正确拼音序列包括的拼音个数；

对于生成的m个数值，分别随机生成每个数值对应的概率；

对于所述m个数值中的第l个数值，l为1,2,3…,m，将所述正确拼音序列中顺序为第l个数值的拼音，根据该拼音的常用错误音以及常用错误音的分布概率，按照第l个数值对应的概率确定该拼音的替代错误音，将所述正确拼音序列中顺序为第l个数值的拼音替换为该拼音的替代错误音，得到所述正确拼音序列对应的错误拼音序列。

6.根据权利要求1至4任一项所述的方法，其特征在于，所述使用所述正确拼音序列以及对应的错误拼音序列对预设语言模型进行训练，包括：

将每一组拼音序列中的正确拼音序列和错误拼音序列分别按照拼音对应的标签进行转化，得到一组标签序列，一组标签序列中包括：正确拼音序列对应的正确标签序列，错误拼音序列对应的错误标签序列；

将第一数量组标签序列进行拼接处理，得到拼接标签序列；

将所述拼接标签序列输入预设语言模型，得到输出结果；

根据所述输出结果对所述预设语言模型的权重进行更新。

7.根据权利要求6所述的方法，其特征在于，所述根据所述输出结果对所述预设语言模型的权重进行更新，包括：

将拼接标签序列的输出结果切分为所述第一数量组标签序列中每个标签序列对应的输出结果；

根据每个标签序列对应的输出结果计算所述第一数量组标签序列的损失函数；

根据所述第一数量组标签序列的损失函数对语言模型的权重进行更新。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华为技术有限公司，未经华为技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】