[发明专利]一种快速实现语音交互功能的系统在审
申请号: | 202010779872.8 | 申请日: | 2020-08-05 |
公开(公告)号: | CN111857646A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 刘重凯;李旭滨 | 申请(专利权)人: | 上海茂声智能科技有限公司 |
主分类号: | G06F3/16 | 分类号: | G06F3/16;G10L15/22;G10L13/02 |
代理公司: | 上海领誉知识产权代理有限公司 31383 | 代理人: | 车超平;王琰 |
地址: | 201306 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 实现 语音 交互 功能 系统 | ||
本申请涉及一种快速实现语音交互功能的系统,其中,该一种快速实现语音交互功能的系统通过I2S标准麦克风阵列采集用户的第一模拟语音数据;语音转换单元将第一模拟语音数据转换为第一数字语音数据,以及将第二数字语音数据转换为第二模拟语音数据;语音处理单元对第一数字语音数据进行全链路语音处理,以生成与第一数字语音数据相对应的第二数字语音数据,其中,语音处理单元独立运行于安卓设备的操作系统;I2S标准播放器播放第二模拟语音数据。通过本申请,解决了现有技术中语音交互功能开发难度高、周期长、不具有可移植性以及复杂度高的问题,实现了快速开发语音交互功能的技术效果。
技术领域
本申请涉及语音交互领域,特别是涉及一种快速实现语音交互功能的系统。
背景技术
随着人工智能技术的普及,语音识别技术也发展的越来越快,且被应用于各种安卓设备上,用以提升安卓设备的操控便捷性和人机交互体验。
现有的安卓设备的语音交互功能的开发流程一般为如下步骤:
硬件选型,根据语音交互功能对算力、RAM(Random Access Memory,随机存取存储器)、ROM(Read-Only Memory,只读存储器)等资源的需求,选择相应CPU(CentralProcessing Unit,中央处理器)、DDR SDRAM(Double Data Rate Synchronous DynamicRandom Access Memory,双倍速率同步动态随机存储器)、麦克风和喇叭等硬件;
识别引擎移植,根据安卓设备部署的操作系统,在对语音识别引擎的算法进行交叉编译和调试的情况下,将语音识别引擎移植到安卓设备上;
录音和放音开发测试,对已经选择好的硬件进行开发调试,如在对麦克风阵列录音质量测试的情况下,需要对麦克风进行增益测试、一致性测试,并且也需要对驱动程序进行开发和调试;
上层应用语音开发,对上述语音识别引擎的调试、录音能力以及放音能力的开发调试进行整合,即调用麦克风阵列采集用户的指令录音,并将指令录音发送到语音识别引擎得到指令文本,然后语音识别引擎解析该指令文本以执行与指令文本相对应的执行动作,然后对指令动作完成播报;
上层应用业务开发,在应用语音能力开发的情况下,需要在应用语音能力的基础上逐步实现业务需求,即基于应用语音能力开发各种业务功能,如GUI(Graphical UserInterface,图形用户界面)动画渲染、拟人播报应答。
相关技术中,在对语音交互功能进行开发的情况下,一般难度较高,需要软件工程师、硬件工程师以及算法工程师共同参与设计和实现;且在对语音交互功能进行开发的情况下,从设计、实现到调优,周期较长,需要耗费大量的时间成本;并且针对于不同的安卓设备的硬件和产品需求,语音识别引擎中语音控制部分不具有可移植性;在对语音交互功能进行开发的情况下,软件工程师既要实现语音识别殷勤的识别播报能力,又要实现具体业务需求,难以并行开发,复杂度较高。
目前针对相关技术中语音交互功能开发难度高、周期长、不具有可移植性以及复杂度高的问题,尚未提出有效地解决方案。
发明内容
本申请实施例提供了一种快速实现语音交互功能的系统,以至少解决相关技术中语音交互功能开发难度高、周期长、不具有可移植性以及复杂度高的问题。
本发明提供了一种快速实现语音交互功能的系统,应用于安卓设备,包括:
I2S标准麦克风阵列,用于采集用户的第一模拟语音数据;
语音转换单元,用于将所述第一模拟语音数据转换为第一数字语音数据,以及将第二数字语音数据转换为第二模拟语音数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海茂声智能科技有限公司,未经上海茂声智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010779872.8/2.html,转载请声明来源钻瓜专利网。