[发明专利]辅助解码方法、装置、电子设备及可读存储介质有效
申请号: | 201911418820.1 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111222331B | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 吴帅;李健;武卫东 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/126;G06F16/31 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 辅助 解码 方法 装置 电子设备 可读 存储 介质 | ||
本发明提供了一种辅助解码方法、装置、电子设备和可读存储介质。通过获取待解码语料,并通过解码器对待解码语料进行解码,得到多条候选文本以及每条候选文本的初始分数,再将多条候选文本分别输入原始语言模型,得到每条候选文本的原始分数,再对多条候选文本进行逆序处理,得到多条逆序文本,将多条逆序文本分别输入反向NGram模型,得到每条候选文本的反向分数,根据每条候选文本的原始分数和反向分数,得到每条候选文本的更新分数,将更新分数最高的候选文本确定为待解码语料的解码文本。通过使用反向NGram模型,配合原始语言模型,对解码后的候选文本的初始分数进行更新,能够较为快速地得到解码文本,且能够提高解码文本的精度。
技术领域
本发明涉及数据解码技术领域,尤其涉及一种辅助解码方法、装置、电子设备及可读存储介质。
背景技术
目前,随着信息产业的迅猛发展,每时每刻有大量数据产生,为了方便人类使用或储存这些数据,其中相当一部分需要转化成文本。因此,在广阔的市场前景下,相关解码(将数据转写成文本)技术应运而生。这些技术包括但不限于机器翻译、语音识别、光学字符识别、输入法和自动问答等。这些技术中,解码后转换的自然语言的准确度是市场应用的一个重要效果指标。此外,通常由于实时性,对于速度也有严苛的要求。在现有技术中,数据解码的精度较低且速度较慢。
发明内容
本发明实施例提供一种基于反向NGram的辅助解码方法,旨在提高数据解码时的精度和解码速度。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种基于反向NGram的辅助解码方法,所述方法包括:
获取待解码语料,通过解码器对所述待解码语料进行解码,得到多条候选文本以及每条候选文本的初始分数;
将所述多条候选文本分别输入原始语言模型,得到每条候选文本的原始分数;
将所述多条候选文本分别进行逆序处理,得到与所述多条候选文本相对应的多条逆序文本;
将所述多条逆序文本分别输入反向NGram模型,得到每条候选文本的反向分数;
根据所述每条候选文本的原始分数和反向分数,对每条文本的所述初始分数进行更新,得到每条候选文本的更新分数;
根据每条候选文本的更新分数,将更新分数最高的候选文本确定为所述待解码语料的解码文本。
可选地,所述方法还包括:
获取多条逆序文本样本,对待训练的反向NGram模型进行多轮训练,直至所述待训练的反向NGram模型输出的反向分数满足预设条件时,结束训练,得到所述反向NGram模型。
可选地,获取多条逆序文本样本,包括:
获取多条语料样本,对所述语料样本进行清洗,根据解码器中的词表,对多条清洗后的所述语料样本进行分词,得到多条分词后的文本样本;
将每条所述分词后的文本样本,以词为单位,进行逆序排列,得到多条逆序后的文本样本;
在每条所述逆序后的文本样本的两端添加句首符和句尾符,得到多条所述逆序文本样本。
可选地,所述候选文本为分词后的文本,且每条所述候选文本均包含句首符和句尾符,将所述多条候选文本分别输入原始语言模型,得到每条候选文本的原始分数,包括:
将所述多条候选文本分别输入原始语言模型,依次计算每条候选文本中每个词以及所述句尾符的概率,并根据每条候选文本中每个词以及句尾符的概率计算出每条候选文本的原始分数;
将所述多条逆序文本分别输入反向NGram模型,得到每条候选文本的反向分数,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911418820.1/2.html,转载请声明来源钻瓜专利网。