[发明专利]中英混合语料的生成方法、装置、设备及存储介质有效
申请号: | 201910022453.7 | 申请日: | 2019-01-10 |
公开(公告)号: | CN109871534B | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 杨福星;曹琼;郝玉峰 | 申请(专利权)人: | 北京海天瑞声科技股份有限公司 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/284;G06F40/289;G06F40/157 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张子青;刘芳 |
地址: | 100083 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 混合 语料 生成 方法 装置 设备 存储 介质 | ||
本申请提供一种中英混合语料的生成方法、装置、设备及存储介质,该方法包括:获取中文语料数据;对所述中文语料数据进行分词处理及词性标注,获得标注后的中文数据;根据所述标注后的中文数据,生成中英混合语料。通过根据中文语料生成中英混合语料,可以有效扩充中英混合语料库,为中英混合语音识别的模型训练提供充足的训练数据,从而提高模型的准确性。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种中英混合语料的生成方法、装置、设备及存储介质。
背景技术
随着教育的不断发展,英语的不断普及,英语已经渐渐融入了人们的日常生活中,一些英文词已经成为日常中的一部分,例如:“ok、no、go”等,语言的表述方式受到英文和环境的影响,很多习惯已经开始发生改变,出现了“中文+英文”的中英混用现象,目前该现象分为两种,一种为被迫式的混用现象,如:“地址为**大厦A座”、“W酒店”,这种是因为实体词中带有英文所以不得不说,还有一种是受到的教育以及所处环境的影响而使得表述习惯发生了一种自然的转变,出现的主动式的混用现象,如:“求告知,Thanks!”、“他人很好,很nice。”、“我能hold住。”等。
出现上述的这种中英混搭现象,无论从汉语语法角度和英语语法角度来说都不符合语言规范,但是,以上现象随着教育的发展和语言的普及出现的越来越普遍。如何识别这种中英混搭的内容,是目前语音识别领域关注的一个问题。
而对于中英混搭内容识别需要大量的原始训练集,所以出现了对语音的中英混合语料的需求,对于上述被迫式的中英混合语料,获取相对较为容易,例如大量的地址。但是对于主动式的中英混语料,获取难度较大。
发明内容
本申请提供一种中英混合语料的生成方法、装置、设备及存储介质,以解决现有技术中英混合语料数据量小,导致语音识别不准确等缺陷。
本申请第一个方面提供一种中英混合语料的生成方法,包括:
获取中文语料数据;
对所述中文语料数据进行分词处理及词性标注,获得标注后的中文数据;
根据所述标注后的中文数据,生成中英混合语料。
可选地,所述根据所述标注后的中文数据,生成中英混合语料,包括:
根据所述标注后的中文数据及预设的词性序列特征,生成中英混合语料,所述词性序列特征包括至少一种词性序列。
可选地,所述中文语料数据包括至少一个中文句子;
所述根据所述标注后的中文数据,生成中英混合语料,包括:
对于所述中文语料数据中的每个中文句子,将其对应的标注后的中文数据与所述词性序列特征进行匹配,若确定所述中文句子与所述词性序列特征中的目标词性序列一致,则将所述中文句子中与所述目标词性序列对应的中文词转为英文词,获得所述中文句子对应的中英混合语料。
可选地,所述将所述中文句子中与所述目标词性序列对应的中文词转为英文词,包括:
基于预设的中英对应词典,将所述中文句子中与所述目标词性序列对应的中文词转为英文词。
可选地,在所述根据所述标注后的中文数据,生成中英混合语料之前,所述方法还包括:
基于原始中英混合语料数据及预设的用户词典,获取英文词的词性序列特征;
其中,所述原始中英混合语料数据包括至少一个中英混合句子,所述用户词典包括词及各词对应的词性。
可选地,所述基于原始中英混合语料数据及预设的用户词典,确定英文词的词性序列特征,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海天瑞声科技股份有限公司,未经北京海天瑞声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910022453.7/2.html,转载请声明来源钻瓜专利网。