[发明专利]一种汉字的向量表达方法在审
| 申请号: | 201810838971.1 | 申请日: | 2018-07-27 |
| 公开(公告)号: | CN109271610A | 公开(公告)日: | 2019-01-25 |
| 发明(设计)人: | 龙华;祁俊辉;邵玉斌;杜庆治 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F17/22 | 分类号: | G06F17/22;G06T9/00 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 650093 云*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 汉字 计算机处理 向量表达 空间特征向量 信息处理技术 笔画特征 点阵字库 规则生成 汉语拼音 矩阵特征 拼音特征 顺序规则 特征向量 笔书写 支持度 编程 数据库 汉语 计算机 替代 中文 | ||
1.一种汉字的向量表达方法,其特征在于具体步骤为:
Step1:获取汉字X;
Step2:提取汉字X的矩阵特征,即根据16×15像素中文点阵字库,将点阵按照从上至下的规则(i=1→8)划分为8个2×15像素的小矩阵,记2×15像素小矩阵中汉字X所占像素数为pi,i∈[1,8],记p1,p2,…,p8为汉字X的矩阵特征;
Step3:提取汉字X的笔画特征,即按照汉字五笔书写顺序规则,将横、竖、撇、捺、折编码为字母a、b、c、d、e,生成汉字X所对应的笔顺编码字符串x1x2…xz,其中z为汉字X的笔画数,xi为汉字X第i笔的笔画,并且xi∈{a,b,c,d,e},i∈[1,z];同时由笔顺编码字符串x1x2…xz提取出横、竖、撇、捺、折各自所占笔画数za、zb、zc、zd、ze;
Step4:提取汉字X的拼音特征,即根据汉语拼音数据库获取汉字X的常用读音StrpX;同时将读音StrpX分为声母StrsX、韵母StryX和拼音声调StrdX,以及声母、韵母和拼音声调所对应的编码数字IntsX、IntyX和IntdX;
Step5:由Step2、Step3、Step4步骤所产生的数据,按照p1、p2、p3、p4、p5、p6、p7、p8、z1、z2、z3、z4、z5、IntsX、IntyX、IntdX的顺序生成汉字X的16维空间特征向量
2.根据权利要求1所述的汉字的向量表达方法,其特征在于:所述步骤Step2中,2×15像素小矩阵中汉字所占像素数pi,i∈[1,8]应满足公式(1)的要求:
0≤pi≤30,i∈[1,8] (1)。
3.根据权利要求1所述的汉字的向量表达方法,其特征在于:所述步骤Step3中,汉字X的笔画数z,以及横、竖、撇、捺、折各自所占笔画数za、zb、zc、zd、ze,应满足公式(2)的要求:
4.根据权利要求1所述的汉字的向量表达方法,其特征在于:所述步骤Step4中,将汉语拼音字母表中21个声母按顺序编码为数字1~21;将汉语拼音字母表中39个韵母按顺序编码为数字1~39;将将汉语拼音字母表中4个拼音声调按顺序编码为数字1~4;若汉字X没有声母StrsX或韵母StryX,则将IntsX或IntyX赋值为0;即声母、韵母和拼音声调所对应的编码数字IntsX、IntyX和IntdX满足公式(3)的要求:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810838971.1/1.html,转载请声明来源钻瓜专利网。





