[发明专利]语音识别后文本处理方法、装置和终端在审
| 申请号: | 202010636442.0 | 申请日: | 2020-07-03 |
| 公开(公告)号: | CN111782896A | 公开(公告)日: | 2020-10-16 |
| 发明(设计)人: | 黎宁;张俊;沈怡;花曼;况鹏;刘光煕 | 申请(专利权)人: | 深圳市壹鸽科技有限公司 |
| 主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F16/901;G06F40/30;G06F40/289;G06F16/31;G10L15/26 |
| 代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 梁韬 |
| 地址: | 518000 广东省深圳市南山区粤海街道*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 识别 文本 处理 方法 装置 终端 | ||
1.一种语音识别后文本处理方法,其特征在于,包括:
接收用户输入的语音,通过语音识别生成所述语音的文本字符串;
利用N元语言模型对所述文本字符串进行候选子串提取,将提取到的所述候选子串合并以构成一序列;
将所述序列与所述文本字符串进行字符相似度匹配,得到字符相似度分值;
从主题语料库中提取与所述序列匹配时子语义相似度分值最大的一文本作为最相似文本,对所述序列与所述最相似文本进行N元相似度计算以得到对应的N元相似度分值,基于所述子语义相似度分值和所述对应的N元相似度分值计算语义相似度分值;
根据所述字符相似度分值和所述语义相似度分值计算语音识别置信度,以用于根据所述语音识别置信度执行相应的操作。
2.根据权利要求1所述的方法,其特征在于,所述N元语言模型包括基于词粒度产生的多个n元短语所构成的Ngram元组数据集,其中,所述多个n元短语包括1元短语、2元短语、3元短语和4元短语,所述利用N元语言模型对所述文本字符串进行候选子串提取包括:
对所述文本字符串进行分词,得到包含若干分词词组的一词列表;
根据各个所述分词词组在所述词列表中的位置次序生成多个k元短语候选,其中,所述多个k元短语候选包括1元短语候选、2元短语候选、3元短语候选和4元短语候选,每一所述k元短语候选设有对应的起止位置索引;
将每一所述k元短语候选与所述Ngram元组数据集进行匹配,得到匹配成功的若干k元短语以作为所述语音的关键短语;
根据所述关键短语的所述起止位置索引进行去重处理,将去重后得到的各关键短语作为对应的候选子串。
3.根据权利要求2所述的方法,其特征在于,所述Ngram元组数据集还包括基于字粒度产生的多个m元短语,其中,所述多个m元短语包括2元短语、3元短语和4元短语,所述方法在生成多个k元短语候选之后,还包括:
对所述文本字符串进行字符分割,得到包含若干字符的一字符列表;
根据各所述字符在所述字符列表中的位置次序生成多个s元短语候选,其中,所述多个s元短语候选包括2元短语候选、3元短语候选和4元短语候选,每一所述s元短语候选设有对应的起止位置索引;
将与所述多个k元短语候选不同且对应的所述起止位置索引也不同的各s元短语候选作为短语候选补充,以用于与所述Ngram元组数据集进行匹配。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述将所述序列与所述文本字符串进行字符相似度匹配,得到字符相似度分值包括:
根据所述序列与所述文本字符串各自的字符个数计算字符相似度分值;
若所述字符相似度分值为Score1,len()表示字符个数,则有:
5.根据权利要求2或3所述的方法,其特征在于,所述对所述序列与所述最相似文本进行N元相似度计算以得到对应的N元相似度分值包括:
根据所述序列和所述最相似文本各自的字符集合按照第一相似度公式计算所述序列和所述最相似文本的1元相似度分值;
根据所述序列和所述最相似文本各自的2元集合按照第二相似度公式计算所述序列和所述最相似文本的2元相似度分值。
6.根据权利要求5所述的方法,其特征在于,所述基于所述子语义相似度分值和所述对应的N元相似度分值计算语义相似度分值包括:
计算所述子语义相似度分值、所述1元相似度分值和所述2元相似度分值这三者的分值总和以及平均分值;
计算所述这三者中大于所述平均分值的个数,以及大于所述平均分值的累加分值;
若所述个数等于1,则所述语义相似度分值等于所述分值总和与所述累加分值之差的二分之一,否则,所述语义相似度分值等于所述累加分值的二分之一。
7.根据权利要求6所述的方法,其特征在于,所述语音识别置信度的计算按照如下公式计算得到:
Score=alpha*Score1+(1-alpha)*Score2;
其中,Score为语音识别置信度;alpha为预设值;Score1和Score2分别为所述字符相似度分值和所述语义相似度分值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市壹鸽科技有限公司,未经深圳市壹鸽科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010636442.0/1.html,转载请声明来源钻瓜专利网。





