[发明专利]基于人工智能的语音处理方法及其装置有效

申请号：	201710855048.4	申请日：	2017-09-20
公开（公告）号：	CN107657947B	公开（公告）日：	2020-11-24
发明（设计）人：	孔德威	申请（专利权）人：	百度在线网络技术（北京）有限公司
主分类号：	G10L15/04	分类号：	G10L15/04;G10L15/05;G10L15/06;G10L15/14
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	宋合成
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于人工智能语音处理方法及其装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种基于人工智能的语音处理方法及其装置，其中，方法包括：采集语音进行切分，形成多个语音片段，识别每个语音片段，获取语音片段的识别文本片段，按照识别文本片段的顺序，从当前识别文本片段对应的原始文本中，确定当前识别文本片段的原始文本片段，对原始文本片段以及原始文本片段对应的语音片段进行拼接，得到句子文本和句子文本对应的句子语音，生成句子文本的拼音，并根据拼音形成音子序列，将音子序列与句子语音进行对齐，获取音子边界，利用句子文本、句子语音、拼音以及音子边界，形成用于对语音合成模型进行训练的目标数据。由此，实现自动对语音进行切分以及标注，形成准确率较高的用于对语音合成模型进行训练的标注数据。

技术领域

本发明涉及人工智能领域，尤其涉及一种基于人工智能的语音处理方法及其装置。

背景技术

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。

目前在语音合成领域，大多采用人工方式进行语音切分，然后基于人工识别出每个语音片段对应的原始文本，然后标注拼音等最后形成用于对语音合成模型进行训练的标注数据，但是人工标注方式，在语音量较大的情况下，往往会出现标注数据生成效率低，切分或者识别过程中容易出现错误的问题，而且存在人工成本较高的问题。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于人工智能的语音处理方法，以实现自动对语音进行切分以及标注，形成准确率较高的用于对语音合成模型进行训练的标注数据，用于解决现有人工标注方式标注数据生成的效率低，切分或者识别过程中容易出现错误，而且人工成本较高的问题。

本发明的第二个目的在于提出一种基于人工智能的语音处理装置。

本发明的第三个目的在于提出另一种计算机设备。

本发明的第四个目的在于提出一种计算机程序产品。

本发明的第五个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种基于人工智能的语音处理方法，包括：

采集语音进行切分，形成多个语音片段，识别每个语音片段，获取所述语音片段的识别文本片段；

按照识别文本片段的顺序，从与当前识别文本片段对应的原始文本中，确定当前识别文本片段的原始文本片段；

对原始文本片段以及原始文本片段对应的语音片段进行拼接，得到句子文本和所述句子文本对应的句子语音；