[发明专利]一种汉字的向量表达方法在审
| 申请号: | 201810838971.1 | 申请日: | 2018-07-27 |
| 公开(公告)号: | CN109271610A | 公开(公告)日: | 2019-01-25 |
| 发明(设计)人: | 龙华;祁俊辉;邵玉斌;杜庆治 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F17/22 | 分类号: | G06F17/22;G06T9/00 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 650093 云*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 汉字 计算机处理 向量表达 空间特征向量 信息处理技术 笔画特征 点阵字库 规则生成 汉语拼音 矩阵特征 拼音特征 顺序规则 特征向量 笔书写 支持度 编程 数据库 汉语 计算机 替代 中文 | ||
本发明涉及一种汉字的向量表达方法,属于汉语信息处理技术领域。本发明通过中文点阵字库提取汉字的矩阵特征,通过五笔书写顺序规则提取汉字的笔画特征,通过汉语拼音数据库提取汉字的拼音特征,将汉字所对应的三种特征以一定的规则生成16维空间特征向量,该特征向量在计算机处理汉字时可以替代汉字进行相关计算。本发明与现有技术相比,主要解决了现有技术在计算机处理汉字时支持度低、不利于编程实现等现象,增加了目前依靠计算机对汉字进行处理的灵活性。
技术领域
本发明涉及一种汉字的向量表达方法,属于汉语信息处理技术领域。
背景技术
在汉语研究中,将汉字表示为数学表达式后可以对汉字进行计算机处理,有助于研究汉字的字形相似,对汉语教学、汉文编辑、汉文机器识别等业务具有重要意义。
目前,将汉字表示为数学表达式的方法主要是根据汉字的笔画、偏旁、拼音等固有属性对其进行编码实现,但是在汉语中拼旁部首有非常多,特别是针对一些复杂的复合字来讲,这种方式只能在理论研究中使用,在计算机处理中却难以实现。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种汉字的向量表达方法,以解决现有技术在计算机处理汉字时支持度低、不利于编程实现等现象,致力于增加目前依靠计算机对汉字进行处理的灵活性。
本发明的技术方案是:一种汉字的向量表达方法,具体步骤为:
Step1:获取汉字X;
Step2:提取汉字X的矩阵特征,即根据16×15像素中文点阵字库,将点阵按照从上至下的规则(i=1→8)划分为8个2×15像素的小矩阵,记2×15像素小矩阵中汉字X所占像素数为pi,i∈[1,8],记p1,p2,…,p8为汉字X的矩阵特征;
Step3:提取汉字X的笔画特征,即按照汉字五笔书写顺序规则,将横、竖、撇、捺、折编码为字母a、b、c、d、e,生成汉字X所对应的笔顺编码字符串x1x2…xz,其中z为汉字X的笔画数,xi为汉字X第i笔的笔画,并且xi∈{a,b,c,d,e},i∈[1,z];同时由笔顺编码字符串x1x2…xz提取出横、竖、撇、捺、折各自所占笔画数za、zb、zc、zd、ze;
Step4:提取汉字X的拼音特征,即根据汉语拼音数据库获取汉字X的常用读音StrpX;同时将读音StrpX分为声母StrsX、韵母StryX和拼音声调StrdX,以及声母、韵母和拼音声调所对应的编码数字IntsX、IntyX和IntdX;
Step5:由Step2、Step3、Step4步骤所产生的数据,按照p1、p2、p3、p4、p5、p6、p7、p8、z1、z2、z3、z4、z5、IntsX、IntyX、IntdX的顺序生成汉字X的16维空间特征向量
进一步的,所述步骤Step2中,2×15像素小矩阵中汉字所占像素数pi,i∈[1,8]应满足公式(1)的要求:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810838971.1/2.html,转载请声明来源钻瓜专利网。





