[发明专利]一种语义识别的方法和系统在审

专利信息
申请号: 202011338810.X 申请日: 2020-11-25
公开(公告)号: CN114550741A 公开(公告)日: 2022-05-27
发明(设计)人: 王一;鲁哲宇 申请(专利权)人: 绍兴市齐悟网络科技有限公司
主分类号: G10L21/0216 分类号: G10L21/0216;G10L25/87;G10L15/04;G10L15/02;G10L25/24;G10L19/02;G10L19/26;G10L15/06;G10L15/14;G10L15/16;G10L15/18
代理公司: 暂无信息 代理人: 暂无信息
地址: 518000 广东省深圳市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 语义 识别 方法 系统
【权利要求书】:

1.一种语义识别的方法,其特征在于:包括以下步骤:

S1,语音信号的采样和量化;

S2,通过预处理模块对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测(找出语音信号的始末)、语音分帧(近似认为在10-30ms内是语音信号是短时平稳的,将语音信号分割为一段一段进行分析)以及预加重(提升高频部分)、语音信号的加窗处理;

S3,特征提取:去除语音信号中对于语音识别无用的冗余信息,保留能够反映语音本质特征的信息,并用一定的形式表示出来,也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列,以便用于后续处理;

S4,语音解码和搜索算法;

S5,文本输出。

2.根据权利要求1所述的一种语义识别的方法,其特征在于:所述S1语音信号的采样和量化,语音信号是一个时间和幅度都连续变化的一维模拟信号,而语音识别的过程是一个对语音信号进行数字处理的过程,在对语音信号处理之前,必须要对其进行数字化,这个过程就是模/数(A/D)转化、模/数转化过程要经过采样和量化两个过程,从而得到时间和幅度上的离散数字信号,根据奈奎斯特采样定律,采样频率应为原始信号频率的两倍以上,才能使采样过程中不会丢失信息,而且能从采样信号中准确的重构原始信号的波形,正常人的发音范围是从40Hz到340OHz左右。

3.根据权利要求1所述的一种语义识别的方法,其特征在于:所述S2语音信号的预加重语音信号从嘴唇辐射后,高频端大约在800Hz以上有6dB/倍频的衰减,因此,在对语音信号进行分析之前,一般要对语音信号加以提升(预加重)。

4.根据权利要求1所述的一种语义识别的方法,其特征在于:所述S2语音信号的加窗处理为了能对语音信号进行处理,语音频谱特性和语音特征参数恒定,因此需将语音信号划分为一个一个的短时段,每一个短时段称为一帧,为了从语音信号中切去出样本信号,就要用时间窗函数乘以原始语音信号,这种操作就称为加窗。

5.根据权利要求1所述的一种语义识别的方法,其特征在于:所述S2语音信号的端点检测其目的是从语音信号中检测出语音信号段和噪音段,准确的端点检测不仅可以减少计算量,而且可以提高系统的识别率,常用的端点检测是基于双门限比较法的端点检测,就是根据语音信号的特征参数(能量和过零率)进行清音,噪音判别,从而完成端点检测的,经过对语音信号的预处理之后就要进行特征参数的提取。

6.根据权利要求1所述的一种语义识别的方法,其特征在于:所述S3特征提取采用Sphinx,在sphinx中也是用MFCC特征的,MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数,在sphinx中,用帧frames去分割语音波形,每帧大概10ms,然后每帧提取可以代表该帧语音的39个数字,这39个数字也就是该帧语音的MFCC特征,用特征向量来表示。

7.根据权利要求1所述的一种语义识别的方法,其特征在于:所述S4语音解码和搜索算法包括语音数据库、特征提取、声学模型训练、声学模型、字典、语音模型、语音模型训练、文本数据库,所述算法选用主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法中的一种。

8.一种语义识别系统,包括特征提取、声学模型、语音模型和字典,其特征在于:

所述特征提取从语音信号中提取出语音的特征序列,提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量;

所述声学模型训练用lstm+ctc训练,得到语音特征到音素的映射;

所述语言模型训练用SRILM工具做LM的训练得到3-gram and 4-gram,是词与词、词与句子的映射;

所述字典是字词对应的音素index集合,是字词和音素之间的映射。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于绍兴市齐悟网络科技有限公司,未经绍兴市齐悟网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011338810.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top