[发明专利]文本纠错方法及装置、存储介质和电子设备在审
申请号: | 201711482307.X | 申请日: | 2017-12-29 |
公开(公告)号: | CN109992765A | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 车天博;邹宇;马勉;鲁楠 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王卫忠;袁礼君 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 纠错 纠错结果 文本 存储介质 电子设备 纠错处理 拼音信息 输出文本 通道模型 文字信息 信息处理技术 纠错文本 有效地 | ||
本发明公开了一种文本纠错方法及装置、存储介质和电子设备,涉及信息处理技术领域。该文本纠错方法包括:获取待纠错文本的文字信息和拼音信息;采用经训练的第一通道模型对文字信息进行纠错处理以得到第一纠错结果;采用经训练的第二通道模型对拼音信息进行纠错处理以得到第二纠错结果;以及根据第一纠错结果和第二纠错结果确定纠错后的文本作为输出文本。本公开可以有效地对文本进行纠错,进而提高输出文本的准确性。
技术领域
本公开涉及信息处理技术领域,具体而言,涉及一种文本纠错方法、文本纠错装置、存储介质和电子设备。
背景技术
随着计算机技术以及人工智能领域的发展,人类与计算机进行交互的场景越来越多。在这种情况下,如何让计算机准确地读懂人类所表达的意图显得尤为重要。
在语音助手、智能音箱等语音识别的应用场景中,完成一次智能语音服务通常需要结合语音识别技术和NLP(Natural Language Processing,自然语言处理)技术,其中,语音识别技术负责将语音信号转换成文本信息,而NLP技术可以针对文本信息完成用户的意图识别、信息提取等任务。在语音识别过程中,由于噪声、用户发音不准、语音识别模型缺陷等原因,可能导致语音识别后的文本出现许多错误。这些错误可能造成NLP过程无法正常进行或后续意图识别不准确,这极大影响了用户的交互体验,在用户经过多次请求而没有得到正确响应后,用户可能会对这些智能产品失去信心。
鉴于此,需要一种文本纠错方法、文本纠错装置、存储介质和电子设备。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种文本纠错方法、文本纠错装置、存储介质和电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
根据本公开的一个方面,提供一种文本纠错方法,包括:获取待纠错文本的文字信息和拼音信息;采用经训练的第一通道模型对文字信息进行纠错处理以得到第一纠错结果;采用经训练的第二通道模型对拼音信息进行纠错处理以得到第二纠错结果;以及根据第一纠错结果和第二纠错结果确定纠错后的文本作为输出文本。
可选地,文本纠错方法还包括:获取声音数据;对声音数据进行语音识别以生成待纠错文本。
可选地,采用经训练的第一通道模型对文字信息进行纠错处理以得到第一纠错结果包括:采用经训练的第一通道模型确定与文本信息中目标语素相邻的语素信息,并将相邻的语素信息作为第一纠错结果;
采用经训练的第二通道模型对拼音信息进行纠错处理以得到第二纠错结果包括:采用经训练的第二通道模型确定目标语素的拼音信息作为第二纠错结果。
可选地,采用经训练的第一通道模型对文字信息进行纠错处理以得到第一纠错结果包括:针对文字信息,采用经训练的第一通道模型将预测的概率最高的文本确定为第一纠错结果;
采用经训练的第二通道模型对拼音信息进行纠错处理以得到第二纠错结果包括:针对拼音信息,采用经训练的第二通道模型将预测的概率最高的文本确定为第二纠错结果;
根据第一纠错结果和第二纠错结果确定纠错后的文本作为输出文本包括:如果第一纠错结果与第二纠错结果相同,则将第一纠错结果确定为纠错后的文本作为输出文本。
可选地,第一通道模型为基于语言模型的噪声信道模型;和/或,第二通道模型为序列标注模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711482307.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文案生成方法及装置
- 下一篇:提取目标词的方法和装置