[发明专利]一种关键词检测方法和装置有效
| 申请号: | 201310355905.6 | 申请日: | 2013-08-15 |
| 公开(公告)号: | CN104143328A | 公开(公告)日: | 2014-11-12 |
| 发明(设计)人: | 李露;卢鲤;马建雄;孔令挥;饶丰;岳帅;张翔;刘海波;王尔玉;陈波 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L25/54;G06F17/30 |
| 代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 张驰;宋志强 |
| 地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 关键词 检测 方法 装置 | ||
技术领域
本发明实施方式涉及语音处理技术领域,更具体地,涉及一种关键词检测方法和装置。
背景技术
关键词检测是从语音流中定位给定关键词的起止时间点的过程,其中关键词是能够表达某种实质意义的词语,一般为名词或短语。现有的关键词检测系统框架一般可以分为两类,一类是基于垃圾网络的系统,一类是基于音素或音节识别器的系统。
在基于垃圾网络的系统中,解码器的搜索空间由关键词和补白音节组成的网络构成。当一段语音进入网络后,有些部分被识别成关键词,其他部分被识别成补白音节,然后用置信度判决模块对识别出的关键词进行判决,最后输出被接受的关键词及其在语音中的位置信息。在基于音素或音节识别器的系统中,对输入语音进行全文识别,输出音素或音节网络,然后利用文本检索技术在网络中检测给定的关键词。
在目前处理多语种关键词检测任务时,通常的做法是把该关键词检测任务分成两个独立的阶段进行。当一段语音被输入后,首先对语音进行语种识别,然后根据语种识别结果把语音送入与该语种相对应的关键词检测引擎中进行关键词检测,最后把所有结果汇总起来作为最终的检测结果。
然而,在现有的多语种关键词检测技术中,语种识别的准确率直接会影响到后续关键词检测的效果。而且,由于语种识别一般需要至少一定长度的音频(如3~5秒),在实际应用中会对流式关键词检测带来一定的障碍。另外,现有技术的关键词检测技术无法解决多语种混杂的情况,如 “昨晚的演唱会high不high”则无法准确识别语种和关键词。
发明内容
本发明实施方式提出一种关键词检测方法,以完成多语种的关键词检测任务。
本发明实施方式还提出了一种关键词检测方法装置,以完成多语种的关键词检测任务。
本发明实施方式的技术方案如下:
一种关键词检测方法,该方法包括:
生成包含语种信息的解码网络,在该解码网络中根据语种信息对关键词进行分组;
利用所述解码网络对输入语音进行关键词检测,其中当检测出的关键词之间的语种信息不一致时,对所检测出关键词设置惩罚因子;
基于惩罚因子评估所检测出的关键词。
一种关键词检测装置,包括解码网络生成单元、关键词检测单元和关键词评估单元,其中:
解码网络生成单元,用于生成包含语种信息的解码网络,在该解码网络中根据语种信息对关键词进行分组;
关键词检测单元,用于利用所述解码网络对输入语音进行关键词检测,其中当检测出的关键词之间的语种信息不一致时,对所检测出关键词设置惩罚因子;
关键词评估单元,用于基于惩罚因子评估所检测出的关键词。
从上述技术方案可以看出,在本发明实施方式中,生成包含语种信息的解码网络,在该解码网络中根据语种信息对关键词进行分组;利用所述解码网络对输入语音进行关键词检测,其中当检测出的关键词之间的语种信息不一致时,对所检测出关键词设置惩罚因子;基于惩罚因子评估所检测出的关键词。由此可见,应用本发明实施方式之后,将语种信息直接构造在解码网络中,利用语 种信息对不同语种的关键词进行分组,有效规避了语种识别可能对关键词检测带来的影响,也使在多语种混杂的语音句子中检测关键词成为可能。
另外,本发明实施方式在解码过程中,通过对语种信息的判断来调整令牌的得分,并引入了语种转换的惩罚函数,只需要单一的检测引擎就可以完成多语种的关键词检测任务。
附图说明
图1为现有技术中解码网络示意图;
图2为根据本发明实施方式关键词检测方法流程图;
图3为根据本发明实施方式解码网络示意图;
图4为根据本发明实施方式关键词检测装置结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
图1为现有技术中解码网络示意图。
由图1可见,在现有技术基于垃圾网络的关键词检测系统使用的解码网络中,关键词和填充音节需要进一步做声学上下文展开,最终的解码空间以HMM状态为图节点。关键词使用较精细的声学模型描述,一般使用上下文相关的三音子HMM建模,这些模型被成为前景模型;填充音节代表语音段中的非关键词部分,一般使用较粗的声学模型,如聚类后的音素语言模型,这些模型被称为背景模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310355905.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种添加标点的方法和系统
- 下一篇:一种微功耗节能显示方法





