[发明专利]一种提取字形特征的方法、装置及设备有效
申请号: | 201810128376.9 | 申请日: | 2018-02-08 |
公开(公告)号: | CN110134935B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 童毅轩;张永伟;董滨;姜珊珊;张佳师 | 申请(专利权)人: | 株式会社理光 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/35 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;刘伟 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提取 字形 特征 方法 装置 设备 | ||
本发明实施例提供一种提取字形特征的方法、装置及设备,涉及文字处理技术领域,用以提高提取字形特征的性能。所述方法包括:对待处理数据进行预处理;获取预设大小的字形特征提取窗口,其中,所述字形特征提取窗口的大小在提取字形特征的过程中保持不变;利用所述字形特征提取窗口,从预处理后的待处理数据中提取字形特征。本发明实施例可提高提取字形特征的性能。
技术领域
本发明实施例涉及文字处理技术领域,尤其涉及一种提取字形特征的方法、装置及设备。
背景技术
现有技术中,字形特征的提取通常利用CNN(Convolutional Neural Network,卷积神经网络)和LSTM(Long Short-Term Memory,长短时记忆)等模型实现。但是,在实现本发明的过程中发明人发现,由于这些模型的复杂度较高,因此,使得利用这些模型获得字形特征的性能较差。
发明内容
有鉴于此,本发明实施例提供一种提取字形特征的方法、装置及设备,用以提高提取字形特征的性能。
为解决上述技术问题,一方面,本发明实施例提供一种提取字形特征的方法,包括:
对待处理数据进行预处理;
获取预设大小的字形特征提取窗口,其中,所述字形特征提取窗口的大小在提取字形特征的过程中保持不变;
利用所述字形特征提取窗口,从预处理后的待处理数据中提取字形特征。
其中,所述对待处理数据进行预处理的步骤,包括:
清除所述待处理数据中的噪声;
将清除噪声后的待处理数据进行数据分割,获得一个或者多个句子,并将所述句子划分成一个或者多个词;
为所述多个词分配ID。
其中,所述为所述多个词分配ID的步骤,包括:
从所述多个词中选择V个不同的词,并利用所述V个不同的词构成模型词库,其中,V为自然数;
若所述多个词中的第一目标词位于所述模型词库中,则为所述第一目标词分配第一ID,不同的第一目标词具有不同的ID;
若第二目标词未位于所述模型词库中,则为所述第二目标词分配第二ID,其中,所述第二ID不同于所述第一ID,所述第二目标词包括未位于所述模型词库中的词且所有第二目标词的ID相同。
其中,所述获取预设大小的字形特征提取窗口的步骤,包括:
提取预设单词的前P个字母作为前缀信息,提取所述预设单词的后S个字母作为后缀信息,其中,P、S为自然数;
利用所述前缀信息和所述后缀信息组成所述字形特征提取窗口。
其中,所述利用所述字形特征提取窗口,从预处理后的待处理数据中提取字形特征的步骤,包括:
从由英文大、小写字母构成的字母集合中选择C个不同的字母为已知字母,并为所述C个不同的字母分别指定N维的表示向量,其中,N为自然数;
对于多个词中的第三目标词,若所述第三目标词中的第一目标字符未位于所述已知字母中,则为所述第一目标字符分配表示向量,其中所述第一目标字符分配的表示向量不同于所述C个字母的表示向量;
获取所述前P个字母的表示向量、后S个字母的表示向量,并构成第一向量,其中所述第一向量为(P+S)*N维的向量;
获取权重矩阵M,其中所述权重矩阵M包括含(P+S)*N行、F列,其中F为自然数;
将所述第一向量和所述权重矩阵相乘,获得字形特征,其中所述字形特征的维度为F。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社理光,未经株式会社理光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810128376.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文本情感分析方法和装置
- 下一篇:一种分词方法、装置及电子设备