[发明专利]自学习平台在审

专利信息
申请号: 202011595340.5 申请日: 2020-12-29
公开(公告)号: CN112735376A 公开(公告)日: 2021-04-30
发明(设计)人: 简仁贤;黄怀鋐;林长洲 申请(专利权)人: 竹间智能科技(上海)有限公司
主分类号: G10L13/047 分类号: G10L13/047;G10L13/08
代理公司: 上海中外企专利代理事务所(特殊普通合伙) 31387 代理人: 孙益青
地址: 200233 上海市徐*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 自学习 平台
【说明书】:

发明公开了一种自学习平台,包括上传模块、存储模块和模型微调模块;所述上传模块,用于供用户上传多音字的语料数据;所述存储模块,用于供用户对上传的语料数据进行存储;所述模型微调模块,用于供用户调取存储的语料数据对预设的多音字预测模型进行训练。本发明能够辅助用户更加便捷的收集多音字的语料数据,方便用户训练出所需的多音字模型。

技术领域

本发明属于自然语言处理技术领域,尤其涉及一种自学习平台。

背景技术

在现有的语音合成系统中,多音字的准确预测扮演着举足轻重的角色,多音字正确的发音会让语音合成系统的客户体验更加的完美,但当前语音合成系统中对于多音字的发音都有错误的现象,究其原因在于多音字语料数据太少,对多音字预测模型的训练不够。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种自学习平台,能够辅助用户更加便捷的收集多音字的语料数据,方便用户训练出所需的多音字模型。

为解决上述技术问题,本发明采用的技术方案是:一种自学习平台,包括上传模块、存储模块和模型微调模块;

所述上传模块,用于供用户上传多音字的语料数据;

所述存储模块,用于供用户对上传的语料数据进行存储;

所述模型微调模块,用于供用户调取存储的语料数据对预设的多音字预测模型进行微调。

进一步地,还包括数据筛选模块,所述数据筛选模块,用于去除用户上传的语料数据中重复的语料数据和格式错误的语料数据。

进一步地,还包括分类模块,所述分类模块用于供用户对存储的语料数据按需分类。

进一步地,所述分类模块对所述语料数据进行分类,包括以下步骤:

将所述语料数据输入预先训练好的分类模型中;所述分类模型的分类类别为根据用户所需预先设定;

根据所述分类模型对所述语料数据的分类结果,针对每一类别的结果分类存储至存储模块中。

进一步地,所述模型微调模块,还用于选择一个或多个所述类别下的语料数据对预设的多音字预测模型进行微调。

进一步地,所述多音字预测模型为albert模型,所述albert模型的输出层后搭载有一分类层。

进一步地,所述模型微调模块在对多音字预测模型进行微调,包括以下步骤:

调用albert模型的开源的微调脚本;

根据存储模块中的语料数据,对albert模型的参数进行调整。

进一步地,还包括导入模块、标记模块和播报模块;

所述导入模块,用于供用户导入文本数据;

所述标记模块,用于调取所述模型微调模块微调后的多音字预测模型对文本数据标记读音;

所述播报模块,用于对标记模块标记过的文本数据进行语音播报。

进一步地,所述存储模块在对上传的语料数据进行存储时,根据用户的ID自动生成属于该用户的存储文件夹。

进一步地,所述用户上传多音字的语料数据,是通过将所述语料数据写入txt文档中进行上传。

进一步地,所述写入txt文档中的语料数据格式为“Y1,Y2 XXXY1(x)XY2(x)XX”,其中Y1和Y2为多音字,XXXY1XY2XX为语句,X为非多音字,(x)为多音字的读音。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于竹间智能科技(上海)有限公司,未经竹间智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011595340.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top