[发明专利]文本比对方法、装置、设备及介质在审
申请号: | 202210283527.4 | 申请日: | 2022-03-22 |
公开(公告)号: | CN114611495A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 林莉芳 | 申请(专利权)人: | 平安证券股份有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/166;G06F40/117;G06F40/289;G06F40/242;G06F40/216;G06V30/40 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区福田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 方法 装置 设备 介质 | ||
1.一种文本比对方法,其特征在于,所述方法包括:
接收用户输入的图片文本和校对文本,将所述图片文本进行光学字符识别得到识别文本,再将识别文本输入预设语言模型组进行纠错得到纠错文本;
根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算,得到所述校对文本与所述识别文本中的不同位置的字符串的第一编辑次数;
当所述不同位置的字符串的第一编辑次数大于预设值时,根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数;
根据所述第二编辑次数与所述预设值的大小关系,判断所述不同位置的字符串在识别文本中为被改动过的内容或识别错误的内容,将所述不同位置的字符串在所述校对文本与所述识别文本中进行定位标记,将定位标记后的所述校对文本与所述识别文本反馈至所述用户。
2.如权利要求1所述的文本比对方法,其特征在于,所述预设语言模型组包括第一预训练语言模型与第二预训练语言模型,所述第一预训练语言模型为bert4csc预训练语言模型,所述第二预训练语言模型为macbert预训练语言模型,所述再将识别文本输入预设语言模型组进行纠错得到纠错文本,包括:
将所述识别文本分别输入所述第一预训练语言模型、所述第二预训练语言模型进行分词得到多个词,根据所述预设语言模型组的预设纠错文本公式对每个词进行计算,得到所述每个词对应的所有预测词的目标概率;
从所述每个词对应的所有预测词中选取最大目标概率的预测词,根据所述最大目标概率的预测词将所述每个词进行替换得到所述纠错文本。
3.如权利要求2所述的文本比对方法,其特征在于,所述预设纠错文本公式包括:
text_A=α×softmax(bert4 csc(text))+β×softmax(macbert(text))
其中,text_A为所述纠错文本,bert4csc(text)为所述第一预训练语言模型中的识别文本,macbert(text)为所述第二预训练语言模型中的识别文本,α、β为加权系数,softmax为归一化函数。
4.如权利要求1所述的文本比对方法,其特征在于,在所述根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算之前,还包括:
根据预先构建好的特殊字符词典对所述校对文本、所述识别文本及所述纠错文本的所有特殊字符进行统一的标准化格式。
5.如权利要求1所述的文本比对方法,其特征在于,所述根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数,包括:
读取所述校对文本与所述纠错文本在所述不同位置的字符串进行长度比对;
根据所述第二预设编辑距离公式计算所述纠错文本的字符串的长度变换成所述校对文本的字符串的长度,得到不同操作方式的编辑次数;
选取所述不同操作方式中最小的编辑次数作为所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数。
6.如权利要求1或5所述的文本比对方法,其特征在于,所述第二预设编辑距离公式包括:
其中,ED(i,j)为所述校对文本的第i个字符与所述识别文本、所述纠错文本的第j个字符的编辑次数,a(i)为所述校对文本的第i个字符,b(j)为所述识别文本的第j个字符,c(j)为所述纠错文本的第j个字符,if a(i)=b(j)or a(i)=c(j)为第二条件语句。
7.如权利要求1所述的文本比对方法,其特征在于,所述将所述不同位置的字符串在所述校对文本与所述识别文本中进行定位标记,包括:
当所述第二编辑次数小于或等于所述预设值时,根据预设标记方法将所述不同位置的字符串在所述校对文本与所述识别文本中进行第一标记;
当所述第二编辑次数大于所述预设值时,根据预设标记方法将所述不同位置的字符串在所述校对文本与所述识别文本中进行第二标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安证券股份有限公司,未经平安证券股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210283527.4/1.html,转载请声明来源钻瓜专利网。