[发明专利]文本校对方法、装置、计算机可读存储介质及电子设备有效
申请号: | 201911144534.0 | 申请日: | 2019-11-20 |
公开(公告)号: | CN110929514B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 苏海波;苏萌;刘译璟;姚震;檀玉飞;黄伟 | 申请(专利权)人: | 北京百分点科技集团股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 贾会玲 |
地址: | 100096 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 校对 方法 装置 计算机 可读 存储 介质 电子设备 | ||
1.一种文本校对方法,其特征在于,所述方法包括:
确定待校对文本中各句子的纠错信息,其中,所述纠错信息包括错误词和所述错误词对应的至少一个纠错词;
针对每个所述错误词,分别确定所述错误词与所述错误词的前词在预设语料库中的第一共现频次、所述错误词与所述错误词的后词在所述预设语料库中的第二共现频次;
针对所述错误词对应的每个所述纠错词,获取所述错误词与所述纠错词的语义特征;
至少根据所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确;
其中,所述获取所述错误词与所述纠错词的语义特征,包括:
将所述错误词所属的初始句子中的所述错误词替换为所述纠错词,得到纠错句子;
通过Bert模型,分别获取所述初始句子对应的第一向量A=(A1,A2,…,Am)、所述纠错句子对应的第二向量B=(B1,B2,…,Bn),其中,m、n分别为所述初始句子中所包含的字符数、所述纠错句子中所包含的字符数,Ai为用于表征所述初始句子中第i个字符出现在所述初始句子中的合理性的第一得分,i=1,2,…,m,Bj为用于表征所述纠错句子中第j个字符出现在所述纠错句子中的合理性的第二得分,j=1,2,…,n;
以及以下中的一者:
将所述第二向量中各第二得分的平均值与所述第一向量中各第一得分的平均值的第一差值确定为所述错误词与所述纠错词的语义特征;
依次通过多个预设变换函数中的每个所述预设变换函数,分别对所述第一向量、所述第二向量进行变换,得到所述第一向量对应的多个第三向量以及所述第二向量对应的多个第四向量;针对每个所述预设变换函数变换得到的第三向量、第四向量,分别计算所述第三向量中各第三得分的平均值与第四向量中各第四得分的平均值的第二差值;将多个所述第二差值确定为所述错误词与所述纠错词的语义特征。
2.根据权利要求1所述的方法,其特征在于,所述至少根据所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确,包括:
至少将所述第一共现频次、所述第二共现频次以及所述语义特征输入至预设的xgboost模型中,以判定所述纠错词是否正确。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述错误词和所述纠错词中属于单字的词标记为1,并将所述错误词和所述纠错词中属于多字的词标记为0;
所述至少根据所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确,包括:
根据所述错误词的标记、所述纠错词的标记、所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确。
4.根据权利要求1所述的方法,其特征在于,在所述获取所述错误词与所述纠错词的语义特征的步骤包括所述将多个所述第二差值确定为所述错误词与所述纠错词的语义特征的步骤的情况下,所述方法还包括:
将多个所述第二差值中的最大值标记为1,并将多个所述第二差值中、除所述最大值外的第二差值标记为0;
所述至少根据所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确,包括:
根据所述第二差值的标记、所述第一共现频次、所述第二共现频次以及所述语义特征,判定所述纠错词是否正确。
5.根据权利要求1-3中任一项所述的方法,其特征在于,在所述确定待校对文本中各句子的纠错信息的步骤之前,所述方法还包括:
对所述待校对文本进行预处理,得到新的待校对文本;
所述确定待校对文本中各句子的纠错信息,包括:
确定所述新的待校对文本中各句子的纠错信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百分点科技集团股份有限公司,未经北京百分点科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911144534.0/1.html,转载请声明来源钻瓜专利网。