[发明专利]自学习平台在审

申请号：	202011595340.5	申请日：	2020-12-29
公开（公告）号：	CN112735376A	公开（公告）日：	2021-04-30
发明（设计）人：	简仁贤;黄怀鋐;林长洲	申请（专利权）人：	竹间智能科技（上海）有限公司
主分类号：	G10L13/047	分类号：	G10L13/047;G10L13/08
代理公司：	上海中外企专利代理事务所(特殊普通合伙) 31387	代理人：	孙益青
地址：	200233 上海市徐***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	自学习平台
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种自学习平台，包括上传模块、存储模块和模型微调模块；所述上传模块，用于供用户上传多音字的语料数据；所述存储模块，用于供用户对上传的语料数据进行存储；所述模型微调模块，用于供用户调取存储的语料数据对预设的多音字预测模型进行训练。本发明能够辅助用户更加便捷的收集多音字的语料数据，方便用户训练出所需的多音字模型。

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种自学习平台。

背景技术

在现有的语音合成系统中，多音字的准确预测扮演着举足轻重的角色，多音字正确的发音会让语音合成系统的客户体验更加的完美，但当前语音合成系统中对于多音字的发音都有错误的现象，究其原因在于多音字语料数据太少，对多音字预测模型的训练不够。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种自学习平台，能够辅助用户更加便捷的收集多音字的语料数据，方便用户训练出所需的多音字模型。

为解决上述技术问题，本发明采用的技术方案是：一种自学习平台，包括上传模块、存储模块和模型微调模块；

所述上传模块，用于供用户上传多音字的语料数据；

所述存储模块，用于供用户对上传的语料数据进行存储；

所述模型微调模块，用于供用户调取存储的语料数据对预设的多音字预测模型进行微调。

进一步地，还包括数据筛选模块，所述数据筛选模块，用于去除用户上传的语料数据中重复的语料数据和格式错误的语料数据。

进一步地，还包括分类模块，所述分类模块用于供用户对存储的语料数据按需分类。