[发明专利]具有关键词适配的可定制关键词定位系统在审
申请号: | 202080071838.3 | 申请日: | 2020-08-26 |
公开(公告)号: | CN114586094A | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | L.考希克;Z.葛 | 申请(专利权)人: | 索尼互动娱乐股份有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L15/187;G06F40/242;G10L15/02;G10L15/08;G10L15/22 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 张晓明 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具有 关键词 定制 定位 系统 | ||
1.一种用于识别语音中的关键词的方法,其包括:
检测所述语音中的第一音素;
将所述第一音素转换为第一字素;
将来自词典的第二字素添加到所述第一字素以呈现扩充字素集;
将所述扩充字素集转换为第二音素集;
修剪所述第二音素集以呈现输出音素;以及
至少部分地基于所述输出音素识别所述关键词。
2.如权利要求1所述的方法,其包括使用适用于生成所述语音的人类的至少一个神经网络来执行所述方法。
3.如权利要求1所述的方法,其中所述词典包括:基本词,每个基本词与“K”个音素映射相关;翻译词,每个翻译词与“N”个音素映射相关;并且每个基本词与“M”个翻译词相关,其中“K”、“N”和“M”为整数且至少“K”大于1。
4.如权利要求1所述的方法,其中所述语音中的所述关键词由用户指示,所述关键词不是在所述语音中被指示之前预定的。
5.如权利要求1所述的方法,其包括:
指示用户按大于1的预定次数说出所述关键词,并向所述用户指示所述关键词应该至少包含三个音素。
6.如权利要求1所述的方法,其中修剪所述第二音素集包括从所述第二音素集中去除重复的音素序列。
7.如权利要求1所述的方法,其中修剪所述第二音素集包括如果特定音素序列短于阈值序列长度,则从所述第二音素集中消除音素序列。
8.如权利要求1所述的方法,其中修剪所述第二音素集包括如果所述第二音素集中的第一音素序列与由所述第一音素建立的第二音素序列不相似,则从所述第二音素集中消除音素序列。
9.如权利要求8所述的方法,其中使用基于Jaro Winkler归一化距离和基于DemerauLevenshtein归一化距离的融合距离度量来测量相似性。
10.如权利要求9所述的方法,其中所述融合距离度量是使用等式来确定的,其中α是加权参数,其中dl是Demerau Levenshtein归一化距离,并且其中jw是JaroWinkler归一化距离。
11.如权利要求1所述的方法,其中修剪所述第二音素集包括基于正样本和负样本的样本匹配来进行修剪,其中来自所述第二音素集的音素序列如果仅与负样本匹配则被消除。
12.如权利要求11所述的方法,其中如果匹配样本的加权平均值大于阈值则不从所述第二音素集中消除来自所述第二音素集的与正样本和负样本匹配的音素序列。
13.如权利要求1所述的方法,其中使用音素识别器模型执行所述检测,并且其中所述方法包括:
在所述修剪之后,基于指示所述第一音素的一个或多个记录来训练所述音素识别器模型。
14.如权利要求13所述的方法,其中所述输出音素为第一输出音素,其中所述音素识别器模型为第一音素识别器模型,其中所述训练从所述第一音素识别器模型呈现第二音素识别器模型,并且其中所述方法包括:
在所述训练之后,使用所述第二音素识别器模型来呈现第二输出音素;以及
或者将所述第二输出音素添加到所述第一输出音素以尝试基于所述第一和第二输出音素两者来识别所述关键词,或者用所述第二输出音素替换所述第一输出音素以尝试基于所述第二输出音素而不是所述第一输出音素来识别所述关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼互动娱乐股份有限公司,未经索尼互动娱乐股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080071838.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:混合软性-刚性电气互连系统
- 下一篇:成组变速器装置、尤其是分流式变速器