[发明专利]一种基于Hadoop平台的大数据语音分类方法有效
| 申请号: | 202010395559.4 | 申请日: | 2020-05-12 |
| 公开(公告)号: | CN111583914B | 公开(公告)日: | 2023-03-28 |
| 发明(设计)人: | 杜炜;马春;谷宗运;陈鹏 | 申请(专利权)人: | 安徽中医药大学 |
| 主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/34;G10L25/66;G06F16/65;G16H50/20 |
| 代理公司: | 宁波高新区核心力专利代理事务所(普通合伙) 33273 | 代理人: | 涂萧恺 |
| 地址: | 230031 *** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 hadoop 平台 数据 语音 分类 方法 | ||
1.一种基于Hadoop平台的大数据语音分类方法,包括以下步骤:
步骤1、进行语音库的构建;
步骤2、在此语音库基础上,基于Hadoop平台,采用Map函数对大数据语音分类问题进行细分,用多节点并行、分布式地对子问题进行语音分类求解,得到相应的语音分类结果;
步骤3、最后利用Reduce函数对子问题的语音分类结果进行组合,以适应大数据语音分类的在线要求。
2.根据权利要求1所述的基于Hadoop平台的大数据语音分类方法,其特征在于:所述步骤2包括以下内容:
(1)Client向Hadoop平台的Job Tracker提交一个语音分类任务,Job Tracker将语音特征数据复制到本地的分布式文件处理系统中;
(2)对语音分类的任务进行初始化,将任务放入任务队列中,Job Tracker根据不同节点的处理能力将任务分配到相应的节点上,即Task Tracker上;
(3)各Task Tracker根据分配的任务,采用支持向量机拟合待分类语音特征与语音特征库之间的关系,得到语音相应的类别;
(4)将语音相应的类别作为 Key/Value,保存到本地文件磁盘中;
(5)如果语音分类中间结果的Key/Value相同,则对其进行合并,将合并的结果交给Reduce进行处理,得到语音分类的结果,并将结果写入到分布式文件处理系统中;
(6)Job Tracker将任务状态进行清空处理,用户从分布式文件处理系统中得到语音分类的结果。
3.根据权利要求2所述的基于Hadoop平台的大数据语音分类方法,其特征在于:
步骤1、进行语音库的构建包括以下步骤:步骤11、发音文本的设计;步骤12、语音录制;步骤13、语音文件的标注;步骤14、对语音文件的声学参数分析;步骤15、数据库管理系统的建立。
4.根据权利要求3所述的基于Hadoop平台的大数据语音分类方法,其特征在于:
所述步骤11中发音文本的设计包括发音文本的选择,所述发音文本的语料库的选择原则包括以下一种或多种:
a、语料库中的单字要求尽量包含所有的声韵现象,能够更好更方便的反映不同患者语音的音系特征;
b、语料库中的词汇依据汉语调查常用表为基础,所以能方便的与汉语普通话进行比较;
c、语料库中的句子主要是根据几个相关主题,与患者进行对话所得,所以更符合语音识别面对的真实情形;
d、语料库中的句子在内容和语义上都是完整的,所以能够尽可能的反映一个句子的韵律信息;
e、对三音子不进行归类的挑选,这样能够有效的解决训练数据稀疏的问题。
5.根据权利要求4所述的基于Hadoop平台的大数据语音分类方法,其特征在于:
所述步骤11中所述发音文本的设计还包括发音文本的编制,所述发音文本的编制原则包括以下一种或多种:
a、单字部分:将调查字表中列举的声母韵母以及声调的一些常用字作为本次语音库的主要录音所用语料;
b、词汇部分:以一个四千词词表为基础但不局限于此,根据原来关于相关音系的结论记录相关词语,力求能够全面反映其语音特点,包括音质和超音质特点,针对一些很有特色的语音现象,可增加例词来反映其特征;
c、语句材料部分:根据不同发音人的语言掌握程度决定语料数量,选取时既要保证语料的范围尽可能广,还需使其具有一定的代表性;
d、自然对话部分:日常生活为题,采用回答问题和自由谈话的形式,录制发音人20-40分钟的语音材料,涉及日常口语中和普通话说法不同的词汇,要求发音人用方言说出来。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽中医药大学,未经安徽中医药大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010395559.4/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





