[发明专利]一种转写文本校对方法及存储介质有效
| 申请号: | 202011404000.X | 申请日: | 2020-12-04 |
| 公开(公告)号: | CN112836493B | 公开(公告)日: | 2023-03-14 |
| 发明(设计)人: | 段运强;井雅琪;胡燕林;杜翠兰;李扬曦;佟玲玲;段东圣;任博雅;李鹏霄 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
| 主分类号: | G06F40/226 | 分类号: | G06F40/226;G06F40/284;G06F16/33 |
| 代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 焉明涛 |
| 地址: | 100029*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 转写 文本 校对 方法 存储 介质 | ||
1.一种转写文本校对方法,其特征在于,包括:
基于预先构建的校对样本库对待校对文本按照不同文本粒度进行分析校对,获得对应的候选方案集;
根据所述候选方案集确定校对方案,并通过所述校对方案确定校对结果;
基于预先构建的校对样本库对待校对文本按照不同文本粒度进行分析校对,获得对应的候选方案集,包括:
基于预先构建的校对样本库对待校对文本进行词粒度校对,获得第一候选方案集;
对所述待校对文本以及所述第一候选方案集进行字粒度校对,获得第二候选方案集和第三候选方案集;
基于预先构建的校对样本库对待校对文本进行词粒度校对,获得第一候选方案集,包括:
对所述待校对文本进行分词;
将分词获得的词语以及词语对应的位置基于所述校对样本库进行匹配,确定校正词以及对应的错误位置;
将分词获得的词语以及词语对应的位置基于所述校对样本库进行匹配之前,还包括:
对所述校对样本库进行分词处理,并根据分词结果训练N-gram模型;
将分词结果中存在语法关联关系的词语进行合并,获得词语搭配组合;
基于所述N-gram模型确定所述存在语法关联关系的词语的出现次数;
将出现次数大于次数阈值的词语对应的所述词语搭配组合进行保存,获得词语搭配库;
将分词获得的词语以及词语对应的位置基于所述校对样本库进行匹配,包括:
将分词获得的词语以及词语对应的位置与所述词语搭配库进行匹配;
基于预先构建的校对样本库对待校对文本进行词粒度校对,获得第一候选方案集,还包括:
按照所述待校对文本的分词顺序通过所述N-gram模型计算分数;
将计算结果中分数低于分数阈值对应的词语的记录为疑似错误词;
从所述词语搭配库中搜索与所述疑似错误词可能搭配的前一个词,获得备选词集合;
获得备选词集合之后,基于预先构建的校对样本库对待校对文本进行词粒度校对,获得第一候选方案集,还包括:
确定所述疑似错误词以及备选词集合的拼音;
确定疑似错误词对应的拼音与备选词集合中每个词的拼音之间的编辑距离;
将所述疑似错误词替换为备选词集合中低于第一距离阈值的词,并通过N-gram模型计算分数;
选取备选词集合中分数高的词对所述待校对文本进行校对,获得第一候选方案集。
2.如权利要求1所述的转写文本校对方法,其特征在于,对待校对文本按照不同文本粒度进行分析校对之前,还包括:
对所述待校对文本进行预处理;
所述预处理至少包括如下之一:全角转半角、统一编码以及去掉非中文字符。
3.如权利要求1所述的转写文本校对方法,其特征在于,对所述待校对文本以及所述第一候选方案集进行字粒度校对,获得第二候选方案集和第三候选方案集,包括:
利用预设语言模型对所述待校对文本以及所述第一候选方案集进行逐字预测;
若预测字与当前字不相同,且所述预测字的拼音与当前字的拼音之间的编辑距离小于第二距离阈值,则将当前字替换为预测字,以获得第二候选方案集和第三候选方案集。
4.如权利要求1或2所述的转写文本校对方法,其特征在于,根据所述候选方案集确定校对方案,并通过所述校对方案确定校对结果,包括:
确定不同的所述候选方案集的校对文本的困惑度;
根据困惑度低的校对文本确定校对结果。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的转写文本校对方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011404000.X/1.html,转载请声明来源钻瓜专利网。





