[发明专利]一种字形处理方法、系统、设备和介质有效
申请号: | 201911107715.6 | 申请日: | 2019-11-13 |
公开(公告)号: | CN110929767B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 周曦;姚志强;李继伟;郝东;杜晓薇 | 申请(专利权)人: | 云从科技集团股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 尹丽云 |
地址: | 511457 广东省广州市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 字形 处理 方法 系统 设备 介质 | ||
本发明提出一种字形处理方法、系统、设备和介质,包括:训练编码模型,将文字图形样本输入所述编码模型,获取字形编码向量;其中,所述编码模型的训练参数包括字形训练集、所述编码模型输出向量的分布、预设的所述字形训练集的样本编码先验分布;本发明通过字形重构修正模型训练,可有效提高字形编码向量的准确性。
技术领域
本发明涉及图形识别领域,尤其涉及一种字形处理方法、系统、设备和介质。
背景技术
传统的基于计数的字嵌入向量维数大,具有稀疏性。而基于预测模型的方法可以生成稠密向量,能用较小的维数表示字,而且可以使语义相似的字之间具有较小的距离。目前,基于预测模型的方法有Word2vec、Glove等,但是除语义之外,字形也可以帮助我们理解字义,特别是像中文一样的象形文字,而目前基于字形的嵌入向量的生成方法还不是特别多,因此,我们需要一种方法,能使用稠密向量较好地对字形进行编码。
发明内容
鉴于以上现有技术存在的问题,本发明提出一种字形处理方法、系统、设备和介质,主要解决字嵌入缺乏字形信息的问题。
为了实现上述目的及其他目的,本发明采用的技术方案如下。
一种字形处理方法,包括:
训练编码模型,将文字图形样本输入所述编码模型,获取字形编码向量;其中,所述编码模型的训练参数包括字形训练集、所述编码模型输出向量的分布、预设的所述字形训练集的样本编码先验分布。
可选地,根据所述字形编码向量创建字形生成模型,通过字形生成模型对所述字形编码向量进行验证。
可选地,所述字形编码向量包括均值向量、协方差向量。
可选地,根据所述样本编码先验分布预设用于采样的分布,具体为其均值向量和协方差向量,进行采样,获取采样向量;将所述采样向量乘以所述协方差向量后加到所述均值向量上,获取对应的字形编码向量。
可选地,获取字形的多维图像信息,并创建所述字形训练集。
可选地,所述多维图像信息包括字体、笔画粗细、旋转角度。
可选地,所述编码模型输出向量的分布服从正态分布。
可选地,通过神经网络对所述文字图形样本提取图像特征,建立所述图像特征与所述字形编码向量的映射关系,进而创建初始的编码模型。
可选地,所述神经网络包括卷积神经网络。
可选地,通过反卷积神经网络建立所述字形编码向量与文字图像的映射关系,进而创建字形生成模型。
可选地,通过所述字形生成模型对所述字形编码向量进行采样,输出对应的字形重构图像。
可选地,预设所述字形训练集的所述样本编码先验分布,计算所述样本编码先验分布与所述编码模型输出向量的分布之间的散度;
获取所述样本的期望分布,并根据所述期望分布和所述散度构建目标函数;
对所述初始的编码模型进行训练,当所述目标函数达到最小值时,获取训练完成的所述编码模型。
可选地,构造所述字形生成模型的代价函数,通过所述的代价函数将所述字形重构图像与对应的所述文字图形样本进行像素比对,根据所述比对结果对所述字形编码向量进行校验。
可选地,通过所述字形生成模型接收随机噪声,根据所述随机噪声和所述字形编码向量获取对应的所述字形重构图像。
可选地,对所述字形编码向量进行特征分类和/或特征聚类。
可选地,所述特征分类包括:
对所述字形训练集进行分类,获取多个样本类别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云从科技集团股份有限公司,未经云从科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911107715.6/2.html,转载请声明来源钻瓜专利网。