[发明专利]文本转换方法、装置、计算机设备和计算机可读存储介质有效
| 申请号: | 201980003381.X | 申请日: | 2019-12-31 |
| 公开(公告)号: | CN111357015B | 公开(公告)日: | 2023-05-02 |
| 发明(设计)人: | 冯中发;黄东延;熊友军 | 申请(专利权)人: | 深圳市优必选科技股份有限公司 |
| 主分类号: | G06F18/24 | 分类号: | G06F18/24;G06F40/103;G06F18/214;G06N20/00 |
| 代理公司: | 深圳中细软知识产权代理有限公司 44528 | 代理人: | 彭佳伟 |
| 地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 转换 方法 装置 计算机 设备 可读 存储 介质 | ||
本申请公开了一种文本转换方法、装置、计算机设备和计算机可读存储介质,包括:获取待转换文本;对所述待转换文本进行手写词识别,得到识别结果;所述识别结果为所述待转换文本中包含手写词,采用极端梯度提升模型对所述待转换文本中的手写词进行识别;根据所述极端梯度提升模型输出的识别结果得到所述待转换文本对应的目标转换文本。本发明的方式相较于深度学习识别速度快,并且识别的准确高。
技术领域
本发明涉及文本转换技术领域,尤其涉及一种文本转换方法、装置、计算机设备和计算机可读存储介质。
背景技术
文本正则化是指将文本中具有的手写形式词语转化成口语表达形式词语,如将文本“今天是2019年10月19日”转化为“今天是二零一九年十月十九日”,在此例子中,“2019”、“10”、“19”为手写形式词语,而“二零一九”、“十”和“十九”是“2019”、“10”、“19”的口语表达形式。
现有的文本正则化方法多是基于语言学规则的方法和基于深度学习的方法,基于语言学的方法需要尽可能穷举可能的情况,十分耗时,效率低下;基于深度学习的方法,需要将手写形式的文本输入深度学习模型,即可得到深度学习模型输出的口语形式的文本,但是,深度学习模型识别速度慢,并且,如果训练语料不足,深度学习模型识别的准确率也会比较低。
发明内容
基于此,有必要针对上述问题,提出一种识别速度快且识别准确率高的文本转换方法、装置、计算机设备和计算机可读存储介质。
一种文本转换方法,所述方法包括:
获取待转换文本;
对所述待转换文本进行手写词识别,得到识别结果;
所述识别结果为所述待转换文本中包含手写词,采用极端梯度提升模型对所述待转换文本中的手写词进行识别;
根据所述极端梯度提升模型输出的识别结果得到所述待转换文本对应的目标转换文本。
在一个实施例中,所述识别结果为所述待转换文本中包含手写词,采用极端梯度提升模型对所述待转换文本中的手写词进行识别,包括:所述识别结果为所述待转换文本中包含手写词,确定所述手写词在所述待转换文本中的位置;根据所述手写词在所述待转换文本中的位置生成包含所述手写词的上下文文本;对所述上下文文本中的手写词进行标记,得到标记文本;将所述标记文本作为所述极端梯度提升模型的输入,以便所述极端梯度提升模型对所述手写词进行识别。
在一个实施例中,所述识别结果包括手写词的类型;所述根据所述极端梯度提升模型输出的识别结果得到所述待转换文本对应的目标转换文本,包括:获取所述极端梯度提升模型输出的所述手写词的类型;根据所述手写词的类型和所述手写词对所述手写词进行转换,得到所述手写词对应的词转换结果;根据所述手写词对应的词转换结果得到所述待转换文本对应的目标转换文本。
在一个实施例中,对所述待转换文本进行手写词识别,得到识别结果,包括:对所述待转换文本进行数字识别和字符识别,以确定所述待转换文本中是否存在数字和字符;识别结果为所述待转换文本中存在至少一个数字,判断所述至少一个数字是否满足第一预设条件,若所述至少一个数字满足所述第一预设条件,则所述识别结果为所述待转换文本中包含手写词;识别结果为所述待转换文本中存在至少一个数字和至少一个字符,判断所述至少一个数字和所述至少一个字符是否满足第二预设条件,所述至少一个数字和所述至少一个字符满足所述第二预设条件,所述识别结果为所述待转换文本中包含手写词。
在一个实施例中,在所述获取待转换文本之前,还包括:获取训练样本集,所述训练样本集中包括多个训练样本,每个所述训练样本中包含有训练手写词;根据所述训练样本和所述训练手写词生成所述训练手写词对应的标记文本;将所述训练手写词对应的标记文本作为所述极端梯度提升模型的输入,将所述训练手写词对应的类型作为所述极端梯度提升模型的输出,对所述极端梯度提升模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市优必选科技股份有限公司,未经深圳市优必选科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980003381.X/2.html,转载请声明来源钻瓜专利网。





