[发明专利]文本纠正、模型训练方法、纠正模型、设备及机器人在审
申请号: | 202010773594.5 | 申请日: | 2020-08-04 |
公开(公告)号: | CN114091408A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 顾鹏程;汤烨;谢韬;沈冀;高倩;邵长东 | 申请(专利权)人: | 科沃斯商用机器人有限公司 |
主分类号: | G06F40/12 | 分类号: | G06F40/12;G06F40/232;G10L15/06;G10L15/16;G10L15/22;G10L15/26 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 柴艳波;刘戈 |
地址: | 215104 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 纠正 模型 训练 方法 设备 机器人 | ||
本申请实施例提供文本纠正、模型训练方法、纠正模型、设备及机器人。在本申请的一些实施例中,将文本中的至少部分词转换为拼音,得到转换后的字符序列;利用文本纠正模型,对所述字符序列进行处理,得到纠正后的文本;其中,所述文本纠正模型经训练样本训练得到,所述训练样本包含多个字符序列样本,字符序列样本中至少部分为拼音。通过上述方案,将无法准确识别词转换为拼音,进而利用包含有拼音的字符序列和预先训练好的文本纠正模型对其进行纠正。利用文本纠正模型能够实现字符序列中所有拼音分别对应的纠正结果的同时输出,能够获得更高的纠正效率、更高的纠正处理速度,还能有效减轻纠正过程中设备计算负担。
技术领域
本申请人工智能技术领域,尤其涉及文本纠正、模型训练方法、纠正模型、设备及机器人。
背景技术
随着人工智能技术的不断发展,各种语言识别和文字识别技术越来越多地进入人们的生活,比如人机交互对话应用中的语音识别、文本图像中OCR识别等等。
在实际应用中,再智能的识别应用也会出现识别不准确的问题。以语音识别为例,语音信息在进行采集的时候,容易受到环境噪声干扰,导致识别不准确;在语音转换文字过程中,若采集到的语音发音不标准也会导致识别不准确。针对上述各种识别不准确的问题,需要对识别结果进行纠正,从而得到准确的识别结果。
发明内容
本申请的多个方面提供文本纠正、模型训练方法、纠正模型、设备及机器人,用以实现对文本中识别后的文字进行纠正的方案。
第一方面,本申请实施例提供一种文本纠正方法,所述方法包括:
将文本中的至少部分词转换为拼音,得到转换后的字符序列;
利用文本纠正模型,对所述字符序列进行处理,得到纠正后的文本;
其中,所述文本纠正模型经训练样本训练得到,所述训练样本包含多个字符序列样本,字符序列样本中至少部分为拼音。
第二方面,本申请实施例提供一种文本纠正模型,所述模型包括:
输入层,用于接收文本对应的含有拼音的字符序列,所述字符序列中包含至少一个表征单个词或字的字符串;
至少一个中间层,用于将所述字符序列中字符串转换为特征向量;按照所述字符序列中字符串顺序,根据第一位置处字符串对应特征向量及与所述第一位置相邻的至少一个邻位处字符串对应的特征向量,计算所述第一位置处对应的文字;
输出层,用于输出所述第一位置处的文字。
第三方面,本申请实施例提供一种文本纠正模型训练方法,所述方法包括:
获取含有拼音的字符序列样本;
使用所述字符序列样本,对文本纠正模型进行训练,得到输出结果;
基于所述输出结果,对所述文本纠正模型进行优化。
第四方面,本申请实施例提供一种电子设备,所述电子设备包括:存储器及处理器;其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
将文本中的至少部分词转换为拼音,得到转换后的字符序列;
利用文本纠正模型,对所述字符序列进行处理,得到纠正后的文本;
其中,所述文本纠正模型经训练样本训练得到,所述训练样本包含多个字符序列样本,字符序列样本中至少部分为拼音
第五方面,本申请实施例提供一种机器人,所述机器人包括:
机体,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科沃斯商用机器人有限公司,未经科沃斯商用机器人有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010773594.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:香水搅拌装置
- 下一篇:空调器及其空调控制方法、控制装置和可读存储介质