[发明专利]基于预训练融合语音特征的文本标点恢复方法有效
| 申请号: | 202111557681.8 | 申请日: | 2021-12-20 |
| 公开(公告)号: | CN115017883B | 公开(公告)日: | 2023-03-07 |
| 发明(设计)人: | 高盛祥;孙童;赖华;余正涛 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289;G06F18/241;G06N3/044;G06N3/08;G10L15/02 |
| 代理公司: | 昆明隆合知识产权代理事务所(普通合伙) 53220 | 代理人: | 何娇 |
| 地址: | 650500 云南*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 训练 融合 语音 特征 文本 标点 恢复 方法 | ||
本发明涉及基于预训练融合语音特征的文本标点恢复方法,属于人工智能领域,本发明使用预训练语言模型获取到原始文本更丰富的信息特征,使用注意力机制对文本进行无视序列长度的语义对齐,将每个词编码成为包含全局语义的隐向量;此基础上将文本信息特征与其对应的原始音频特征在时间上进行对齐,在嵌入空间上进行融合,得到混合了语义信息与音频信息的融合特征,将更多文本无法有效包含的说话人声调、音高、停顿以及静默时间等特征信息提供给模型。
技术领域:
本发明涉及基于预训练融合语音特征的文本标点恢复方法,属于人工智能技术领域。
背景技术:
目前主流自动语音识别系统(ASR System)通常会直接将输入语音转录为无标点的文本序列,该文本序列在难以阅读的同时会对下游自然语言处理任务造成不可忽视的性能损失。标点恢复工作早期仅对序列断句位置做出预测,无法高效准确的确定序列边界处具体的标点符号,故也被称作序列边界检测工作。由于序列标注任务输入输出序列等长的特性,目前标点恢复工作更多的关注更有效的提取文本语义特征,但完全丢弃文本对应的原始音频序列,仅凭借文本中包含的语义信息来推断其正确的标点符号。然而,音频中包含更丰富的说话人感情、语气等特征信息,这类信息相对于文本语音来讲对标点符号起到更加重要的作用。
发明内容:
本发明提出了基于预训练融合语音特征的文本标点恢复方法,该方法使用大型预训练语言模型作为文本特征提取器,给予模型理解文本的能力,令模型学习到更多关于句法结构的知识;并在上述基础上融合原始语音的音频特征信息,提供给模型更多关于说话人语气、声调、停顿时间等仅包含在原始语音中的信息,令模型能够对含有歧义的文本序列进行准确的标点恢复。
本发明的技术方案是:基于预训练融合语音特征的文本标点恢复方法,所述方法的具体步骤如下:
Step1、收集包含对应语音的带有完整高质量标点符号的英文文本作为训练语料和测试语料;
Step2、对数据集的文本进行预处理,构造“文本-标签”平行数据对;
Step3、对音频进行预处理,构造符合训练要求的音频文件;
Step4、在步骤Step2的基础上构建字母粒度的词表,选取特征空间;
Step5、对文本、音频在时域空间上进行毫秒级的帧对齐,获取文本中每个单词对应的时间片段;
Step6、使用预训练语言模型对文本进行特征提取、使用滤波器对对应的音频片段进行特征提取,压缩音频特征长度为1,并在特征空间上与文本特征进行拼接;
Step7、训练分类器,并在测试语料上进行标点恢复实验验证。
作为本发明的进一步方案,所述Step2中,对开源语音识别数据集进行了文本预处理,包括:去除特殊专有词汇,将所有字母更换为小写字母,词量统计,标点符号数量占比统计;重映射特殊的标点符号:引号、冒号、分号替换为逗号,叹号替换为句号,删除其余所有的标点符号;还原缩写单词为原单词;将文本与标点符号分离,构造单词序列-标签序列平行语料。
作为本发明的进一步方案,所述Step3中,借助于计算机自动文本处理工具sox对音频文件进行重采样为比特率为16kHz的wav格式文件。
作为本发明的进一步方案,所述Step5中,借助于aeneas方法,对音频与其对应的文本进行毫秒级别的对齐,得到文本中每个单词对应的音频时间片段,用于方便后续处理中对于该单词对应的音频特征提取。
作为本发明的进一步方案,所述Step6中,使用预训练语言模型BERT的分词器将文本转为词表id,对于词表中未登录词汇使用UNK代替;词语id序列被输入进预训练语言模型BERT进行文本特征的提取,每个序列构成一个768维的矩阵,得到文本与音频对应的特征ftext、faudio:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111557681.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:隧道围岩级别识别方法和装置
- 下一篇:一种产科羊水取样临床检测装置





