[发明专利]一种基于Hadoop平台的大数据语音分类方法有效

专利信息
申请号: 202010395559.4 申请日: 2020-05-12
公开(公告)号: CN111583914B 公开(公告)日: 2023-03-28
发明(设计)人: 杜炜;马春;谷宗运;陈鹏 申请(专利权)人: 安徽中医药大学
主分类号: G10L15/08 分类号: G10L15/08;G10L15/34;G10L25/66;G06F16/65;G16H50/20
代理公司: 宁波高新区核心力专利代理事务所(普通合伙) 33273 代理人: 涂萧恺
地址: 230031 *** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 hadoop 平台 数据 语音 分类 方法
【权利要求书】:

1.一种基于Hadoop平台的大数据语音分类方法,包括以下步骤:

步骤1、进行语音库的构建;

步骤2、在此语音库基础上,基于Hadoop平台,采用Map函数对大数据语音分类问题进行细分,用多节点并行、分布式地对子问题进行语音分类求解,得到相应的语音分类结果;

步骤3、最后利用Reduce函数对子问题的语音分类结果进行组合,以适应大数据语音分类的在线要求。

2.根据权利要求1所述的基于Hadoop平台的大数据语音分类方法,其特征在于:所述步骤2包括以下内容:

(1)Client向Hadoop平台的Job Tracker提交一个语音分类任务,Job Tracker将语音特征数据复制到本地的分布式文件处理系统中;

(2)对语音分类的任务进行初始化,将任务放入任务队列中,Job Tracker根据不同节点的处理能力将任务分配到相应的节点上,即Task Tracker上;

(3)各Task Tracker根据分配的任务,采用支持向量机拟合待分类语音特征与语音特征库之间的关系,得到语音相应的类别;

(4)将语音相应的类别作为 Key/Value,保存到本地文件磁盘中;

(5)如果语音分类中间结果的Key/Value相同,则对其进行合并,将合并的结果交给Reduce进行处理,得到语音分类的结果,并将结果写入到分布式文件处理系统中;

(6)Job Tracker将任务状态进行清空处理,用户从分布式文件处理系统中得到语音分类的结果。

3.根据权利要求2所述的基于Hadoop平台的大数据语音分类方法,其特征在于:

步骤1、进行语音库的构建包括以下步骤:步骤11、发音文本的设计;步骤12、语音录制;步骤13、语音文件的标注;步骤14、对语音文件的声学参数分析;步骤15、数据库管理系统的建立。

4.根据权利要求3所述的基于Hadoop平台的大数据语音分类方法,其特征在于:

所述步骤11中发音文本的设计包括发音文本的选择,所述发音文本的语料库的选择原则包括以下一种或多种:

a、语料库中的单字要求尽量包含所有的声韵现象,能够更好更方便的反映不同患者语音的音系特征;

b、语料库中的词汇依据汉语调查常用表为基础,所以能方便的与汉语普通话进行比较;

c、语料库中的句子主要是根据几个相关主题,与患者进行对话所得,所以更符合语音识别面对的真实情形;

d、语料库中的句子在内容和语义上都是完整的,所以能够尽可能的反映一个句子的韵律信息;

e、对三音子不进行归类的挑选,这样能够有效的解决训练数据稀疏的问题。

5.根据权利要求4所述的基于Hadoop平台的大数据语音分类方法,其特征在于:

所述步骤11中所述发音文本的设计还包括发音文本的编制,所述发音文本的编制原则包括以下一种或多种:

a、单字部分:将调查字表中列举的声母韵母以及声调的一些常用字作为本次语音库的主要录音所用语料;

b、词汇部分:以一个四千词词表为基础但不局限于此,根据原来关于相关音系的结论记录相关词语,力求能够全面反映其语音特点,包括音质和超音质特点,针对一些很有特色的语音现象,可增加例词来反映其特征;

c、语句材料部分:根据不同发音人的语言掌握程度决定语料数量,选取时既要保证语料的范围尽可能广,还需使其具有一定的代表性;

d、自然对话部分:日常生活为题,采用回答问题和自由谈话的形式,录制发音人20-40分钟的语音材料,涉及日常口语中和普通话说法不同的词汇,要求发音人用方言说出来。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽中医药大学,未经安徽中医药大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010395559.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top