[发明专利]一种提取字形特征的方法、装置及设备有效
申请号: | 201810128376.9 | 申请日: | 2018-02-08 |
公开(公告)号: | CN110134935B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 童毅轩;张永伟;董滨;姜珊珊;张佳师 | 申请(专利权)人: | 株式会社理光 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/35 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;刘伟 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提取 字形 特征 方法 装置 设备 | ||
1.一种提取字形特征的方法,其特征在于,包括:
对待处理数据进行预处理;
获取预设大小的字形特征提取窗口,其中,所述字形特征提取窗口的大小在提取字形特征的过程中保持不变;
利用所述字形特征提取窗口,从预处理后的待处理数据中提取字形特征,
其中,所述对待处理数据进行预处理的步骤,包括:
清除所述待处理数据中的噪声;
将清除噪声后的待处理数据进行数据分割,获得一个或者多个句子,并将所述句子划分成一个或者多个词;
为所述多个词分配ID,
其中,所述获取预设大小的字形特征提取窗口的步骤,包括:
提取预设单词的前P个字母作为前缀信息,提取所述预设单词的后S个字母作为后缀信息,其中,P、S为自然数;
利用所述前缀信息和所述后缀信息组成所述字形特征提取窗口。
2.根据权利要求1所述的方法,其特征在于,所述为所述多个词分配ID的步骤,包括:
从所述多个词中选择V个不同的词,并利用所述V个不同的词构成模型词库,其中,V为自然数;
若所述多个词中的第一目标词位于所述模型词库中,则为所述第一目标词分配第一ID,不同的第一目标词具有不同的ID;
若第二目标词未位于所述模型词库中,则为所述第二目标词分配第二ID,其中,所述第二ID不同于所述第一ID,所述第二目标词包括未位于所述模型词库中的词且所有第二目标词的ID相同。
3.根据权利要求1或2所述的方法,其特征在于,所述利用所述字形特征提取窗口,从预处理后的待处理数据中提取字形特征的步骤,包括:
从由英文大、小写字母构成的字母集合中选择C个不同的字母为已知字母,并为所述C个不同的字母分别指定N维的表示向量,其中,N为自然数;
对于多个词中的第三目标词,若所述第三目标词中的第一目标字符未位于所述已知字母中,则为所述第一目标字符分配表示向量,其中所述第一目标字符分配的表示向量不同于C个字母的表示向量;
获取所述前P个字母的表示向量、后S个字母的表示向量,并构成第一向量,其中所述第一向量为(P+S)*N维的向量;
获取权重矩阵M,其中所述权重矩阵M包括含(P+S)*N行、F列,其中F为自然数;
将所述第一向量和所述权重矩阵相乘,获得字形特征,其中所述字形特征的维度为F。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将所述字形特征和获取的词向量特征进行拼接,并将拼接后的向量作为训练模型的输入;
训练所述训练模型,更新所述权重矩阵M和/或所述表示向量的权重。
5.一种提取字形特征的装置,其特征在于,包括:
预处理模块,用于对待处理数据进行预处理;
获取模块,用于获取预设大小的字形特征提取窗口,其中,所述字形特征提取窗口的大小在提取字形特征的过程中保持不变;
提取模块,用于利用所述字形特征提取窗口,从预处理后的待处理数据中提取字形特征,
所述预处理模块包括:
清除子模块,用于清除所述待处理数据中的噪声;
划分子模块,用于将清除噪声后的待处理数据进行数据分割,获得一个或者多个句子,并将所述句子划分成一个或者多个词;
分配子模块,用于为所述多个词分配ID,
所述获取模块,用于提取预设单词的前P个字母作为前缀信息,提取所述预设单词的后S个字母作为后缀信息,其中,P、S为自然数;利用所述前缀信息和所述后缀信息组成所述字形特征提取窗口。
6.根据权利要求5所述的装置,其特征在于,所述提取模块,还用于获取词向量特征、权重矩阵M以及表示向量;
所述装置还包括:
拼接模块,用于将所述字形特征和获取的词向量特征进行拼接,并将拼接后的向量作为训练模型的输入;
训练模块,用于训练所述训练模型,更新所述权重矩阵M和/或所述表示向量的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社理光,未经株式会社理光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810128376.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:文本情感分析方法和装置
- 下一篇:一种分词方法、装置及电子设备