[发明专利]一种提取字形特征的方法、装置及设备有效

申请号：	201810128376.9	申请日：	2018-02-08
公开（公告）号：	CN110134935B	公开（公告）日：	2023-08-11
发明（设计）人：	童毅轩;张永伟;董滨;姜珊珊;张佳师	申请（专利权）人：	株式会社理光
主分类号：	G06F40/279	分类号：	G06F40/279;G06F16/35
代理公司：	北京银龙知识产权代理有限公司 11243	代理人：	许静;刘伟
地址：	日本***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种提取字形特征方法装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供一种提取字形特征的方法、装置及设备，涉及文字处理技术领域，用以提高提取字形特征的性能。所述方法包括：对待处理数据进行预处理；获取预设大小的字形特征提取窗口，其中，所述字形特征提取窗口的大小在提取字形特征的过程中保持不变；利用所述字形特征提取窗口，从预处理后的待处理数据中提取字形特征。本发明实施例可提高提取字形特征的性能。

技术领域

本发明实施例涉及文字处理技术领域，尤其涉及一种提取字形特征的方法、装置及设备。

背景技术

现有技术中，字形特征的提取通常利用CNN(Convolutional Neural Network，卷积神经网络)和LSTM(Long Short-Term Memory，长短时记忆)等模型实现。但是，在实现本发明的过程中发明人发现，由于这些模型的复杂度较高，因此，使得利用这些模型获得字形特征的性能较差。

发明内容

有鉴于此，本发明实施例提供一种提取字形特征的方法、装置及设备，用以提高提取字形特征的性能。

为解决上述技术问题，一方面，本发明实施例提供一种提取字形特征的方法，包括：

对待处理数据进行预处理；

获取预设大小的字形特征提取窗口，其中，所述字形特征提取窗口的大小在提取字形特征的过程中保持不变；

利用所述字形特征提取窗口，从预处理后的待处理数据中提取字形特征。

其中，所述对待处理数据进行预处理的步骤，包括：

清除所述待处理数据中的噪声；

将清除噪声后的待处理数据进行数据分割，获得一个或者多个句子，并将所述句子划分成一个或者多个词；

为所述多个词分配ID。

其中，所述为所述多个词分配ID的步骤，包括：

从所述多个词中选择V个不同的词，并利用所述V个不同的词构成模型词库，其中，V为自然数；