[发明专利]文本处理方法、装置、电子设备及可读存储介质在审
申请号: | 202110205899.0 | 申请日: | 2021-02-24 |
公开(公告)号: | CN112905775A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 汪建;冯康;袁春阳 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 任亚娟 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 电子设备 可读 存储 介质 | ||
本申请提供了一种文本处理方法、装置、电子设备及可读存储介质。所述方法包括:获得当前对话文本,并获得所述当前对话文本的历史对话文本;根据所述当前对话文本的语素特征和流畅度,以及所述当前对话文本的历史对话文本与所述当前对话文本之间的关联度,确定所述当前对话文本的正确概率;在所述正确概率小于预设阈值时,确定所述当前对话文本包含错误词语。通过本申请的文本处理方法,可在检测到用户输入的语音后,结合当前语音和当前语音的上下文信息,准确地识别出语音中的错误,有助于后续顺利实现对错误词语的纠正,进而提升后续任务的成功率。
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种文本处理方法、装置、电子设备及可读存储介质。
背景技术
随着语音及自然语言处理技术的发展,越来越多的场景利用语音方式进行交互。语音识别模块(ASR,Automatic Speech Recognition)负责将语音转换为对话文本,转换结果中很可能会出现错误。对于较长的对话文本,片段错误影响着最终的应用,对于较短的对话文本,如仅包含一个词语时,可能出现整句错误的情况。因此,在语音交互场景中,语音识别结果纠错尤为重要。
语音识别纠错过程大致可分为两个阶段:发现错误和纠正错误。在发现错误阶段,相关技术中可以利用纠错库直接处理对话文本发现错误词语,或者利用语言模型判断对话文本的流畅度,或者利用后续的交互信息做澄清。然而这些方式对于较短的对话文本或者较长的对话文本则很难准确发现错误,例如较短的对话文本为9吧时,识别成酒吧,再例如较长的对话文本为如我考了100分时,识别成我烤了100份,因此相关技术中的语音识别纠错方式在发现错误时能力极其有限。
发明内容
本申请提供一种文本处理方法、装置、电子设备及可读存储介质,可准确地识别出语音中的错误。
本申请第一方面提供了一种文本处理方法,所述方法包括:
获得当前对话文本,并获得所述当前对话文本的历史对话文本;
根据所述当前对话文本的语素特征和流畅度,以及所述当前对话文本的历史对话文本与所述当前对话文本之间的关联度,确定所述当前对话文本的正确概率;
在所述正确概率小于预设阈值时,确定所述当前对话文本包含错误词语。
可选地,获得当前对话文本,包括:
获得本轮对话中的用户对话文本;
获得所述当前对话文本的历史对话文本,包括:
获得针对上一轮对话中用户对话文本的应答对话文本;或
获得历史轮对话中的用户对话文本和/或针对历史轮对话中用户对话文本的应答对话文本。
可选地,根据所述当前对话文本的语素特征和流畅度,以及所述当前对话文本的历史对话文本与所述当前对话文本之间的关联度,确定所述当前对话文本的正确概率,包括:
将所述当前对话文本和所述当前对话文本的历史对话文本输入预先训练的正确概率预测模型,得到所述当前对话文本的正确概率;
其中,所述预先训练的正确概率预测模型是以对话文本样本和该对话文本样本的历史对话文本样本为训练样本,对第一预设模型进行训练得到的,所述对话文本样本携带表征该对话文本样本是否包含错误词语的标签。
可选地,在确定所述当前对话文本包含错误词语之后,所述方法还包括:
将所述当前对话文本输入预先训练的纠错模型,得到所述当前对话文本的第一类候选纠正文本,所述纠错模型是以对话文本样本和该对话文本样本中各个词语的候选纠正词语为训练样本,对第二预设模型进行训练得到的。
可选地,在确定所述当前对话文本包含错误词语之后,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110205899.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种半导体生产过程数据预处理方法及装置
- 下一篇:一种升船机承船厢拼装方法