[发明专利]一种实现语音识别功能的方法在审

申请号：	201410636777.7	申请日：	2014-11-12
公开（公告）号：	CN104318924A	公开（公告）日：	2015-01-28
发明（设计）人：	韩庆恺;解威;赵银祥;战杨	申请（专利权）人：	沈阳美行科技有限公司
主分类号：	G10L15/26	分类号：	G10L15/26;H04L29/08
代理公司：	沈阳晨创科技专利代理有限责任公司 21001	代理人：	任玉龙
地址：	110004 辽宁省沈阳***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种实现语音识别功能方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及导航领域，特别涉及了一种实现语音识别功能的方法。

背景技术

随着汽车电子行业的兴起，汽车导航系统开始走入人们的视线。汽车导航系统，是在嵌入式硬件、全球GPS定位、地理信息数据的基础上，为驾驶者提供电子地图、车辆定位、实时语音引导、实时画面引导等服务的综合体。

提到科技的进步，则不能不提及产品的人工智能化，语言和声音作为人与人之间最常用和最便利的方式，如果能应用到人机交互中，那将会大大提高用户体验，效率及安全性。语音识别经过几十年的坎坷发展，到如今已经初步达到可应用的水平，从降噪到识别到语义解析都达到一个空前的高水平。

但是在应用界还并没有非常的普及，出现的产品也还远远没有达到完全“解放双手”的目的，从开发上讲，效率和成本都是非常的高，而且目前很多企业应用的方案可维护和可扩展性很差，一旦有需求的变更，则会对开发者造成非常大的困扰；从产品上讲，出现的一些语音识别的平台，将会造成语音产品同质化严重的情况，不利于该行业的发展。现在的语音产品开发方案存在着很多问题，诸如效率低，灵活性差，产品体验不够好，产品同质化严重等问题，很多企业为了想做语音识别产品而没有好的方案，最后仅只投入了根据识别文字匹配字符串的功能。

发明内容

本发明的目的是为了在导航终端实现语音产品，特提供了一种实现语音识别功能的方法。

本发明提供了一种实现语音识别功能的方法，其特征在于：所述的实现语音识别功能的方法，具备以下特征：

有一个声音采集模块，能够支持声音录入功能，将声音采集为数字数据，即配备麦克风或者可以提供相同功能的其他设备；

有语音识别模块将声音数据转化为文本；

有语义解析模块将文本理解为指令或者指令集；

声控程序，通过定义通信接口的方式将应用程序和语音控制程序本来存在的复杂度降低而不相互耦合，双方只是相互约定好原则，就可以按照各自的意愿制定出非常人性化的交互方式和产品体验；

有至少一款的应用程序，与声控程序进行交互，实现语音识别功能；

支持至少一种唤醒录音方式，可以通过唤醒词唤醒、硬件按钮唤醒或者软件按钮唤醒；

用户功能通过语音唤醒词唤醒或者硬件/软件按钮触发开始录音，录音状态下，用户可以输入自己的指令，语音处理模块将会经过声音采集，声音识别，语义解析，命令下发，命令执行，命令执行反馈，反馈意见处理等几个过程，最终实现真正的语音功能，其中该专利更强调的是命令执行反馈和反馈意见处理的部分。

所述的实现语音识别功能的方法，通过语音输入，声控程序负责识别和解析，并将指令发送给应用程序，不用关心具体的处理方式，将声音控制程序真正作成一个与业务无关的平台；应用程序通过与声控程序的接口，可以控制导航机播报内容及播报时机、录音开始停止状态，及交互次数和发声，产品体验完全依赖于开发者的想法和设计，与声音控制程序没有任何耦合；除了语音播报，声控程序能够显示和记录下人机交互的对话过程，方便查看。

所述的实现语音识别功能的方法，实现的硬件整体框架分为三个部分：

终端设备：负责声音采集，音频数据与服务器的传输，解析结果获取和处理；云端服务器：负责语音识别和语义解析，并从网络获取相应的信息，为终端设备提供数据；车联网服务器：负责整合网络资源，为云端服务器提供信息；

终端设备实现原理和流程：

用户对着声音采集设备说出指令；

声控程序通过操作系统API获取音频数据，将音频数据发送到云端服务器上，云端服务器进行识别，解析，最终将解析结果发送给声控程序；

声控程序根据解析结果，识别是哪一类的指令，并发送给指定的应用程序；

应用程序根据自己的优先级，进行响应，如果能处理则进行自处理，如果不能处理，则返回给声控程序不能处理的通知，由声控程序通知下一个应用程序；

以此类推，直到所有应用都经过了处理为止；

云端服务器实现原理和流程：

云端服务器在此方案中处于可选的地位，如果不选，则此逻辑需要在声控程序里实现；

服务器主要解决识别和解析的作用，由服务器选择使用哪家的识别和解析引擎，并且也可以自身也做解析，实现个性化；

服务器需要做好良好的封装，以便在替换语音识别和解析引擎时，对终端没有影响；