[发明专利]一种汉字的向量表达方法在审

专利信息
申请号: 201810838971.1 申请日: 2018-07-27
公开(公告)号: CN109271610A 公开(公告)日: 2019-01-25
发明(设计)人: 龙华;祁俊辉;邵玉斌;杜庆治 申请(专利权)人: 昆明理工大学
主分类号: G06F17/22 分类号: G06F17/22;G06T9/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 汉字 计算机处理 向量表达 空间特征向量 信息处理技术 笔画特征 点阵字库 规则生成 汉语拼音 矩阵特征 拼音特征 顺序规则 特征向量 笔书写 支持度 编程 数据库 汉语 计算机 替代 中文
【说明书】:

发明涉及一种汉字的向量表达方法,属于汉语信息处理技术领域。本发明通过中文点阵字库提取汉字的矩阵特征,通过五笔书写顺序规则提取汉字的笔画特征,通过汉语拼音数据库提取汉字的拼音特征,将汉字所对应的三种特征以一定的规则生成16维空间特征向量,该特征向量在计算机处理汉字时可以替代汉字进行相关计算。本发明与现有技术相比,主要解决了现有技术在计算机处理汉字时支持度低、不利于编程实现等现象,增加了目前依靠计算机对汉字进行处理的灵活性。

技术领域

本发明涉及一种汉字的向量表达方法,属于汉语信息处理技术领域。

背景技术

在汉语研究中,将汉字表示为数学表达式后可以对汉字进行计算机处理,有助于研究汉字的字形相似,对汉语教学、汉文编辑、汉文机器识别等业务具有重要意义。

目前,将汉字表示为数学表达式的方法主要是根据汉字的笔画、偏旁、拼音等固有属性对其进行编码实现,但是在汉语中拼旁部首有非常多,特别是针对一些复杂的复合字来讲,这种方式只能在理论研究中使用,在计算机处理中却难以实现。

发明内容

本发明要解决的技术问题是针对现有技术的局限和不足,提供一种汉字的向量表达方法,以解决现有技术在计算机处理汉字时支持度低、不利于编程实现等现象,致力于增加目前依靠计算机对汉字进行处理的灵活性。

本发明的技术方案是:一种汉字的向量表达方法,具体步骤为:

Step1:获取汉字X;

Step2:提取汉字X的矩阵特征,即根据16×15像素中文点阵字库,将点阵按照从上至下的规则(i=1→8)划分为8个2×15像素的小矩阵,记2×15像素小矩阵中汉字X所占像素数为pi,i∈[1,8],记p1,p2,…,p8为汉字X的矩阵特征;

Step3:提取汉字X的笔画特征,即按照汉字五笔书写顺序规则,将横、竖、撇、捺、折编码为字母a、b、c、d、e,生成汉字X所对应的笔顺编码字符串x1x2…xz,其中z为汉字X的笔画数,xi为汉字X第i笔的笔画,并且xi∈{a,b,c,d,e},i∈[1,z];同时由笔顺编码字符串x1x2…xz提取出横、竖、撇、捺、折各自所占笔画数za、zb、zc、zd、ze

Step4:提取汉字X的拼音特征,即根据汉语拼音数据库获取汉字X的常用读音StrpX;同时将读音StrpX分为声母StrsX、韵母StryX和拼音声调StrdX,以及声母、韵母和拼音声调所对应的编码数字IntsX、IntyX和IntdX

Step5:由Step2、Step3、Step4步骤所产生的数据,按照p1、p2、p3、p4、p5、p6、p7、p8、z1、z2、z3、z4、z5、IntsX、IntyX、IntdX的顺序生成汉字X的16维空间特征向量

进一步的,所述步骤Step2中,2×15像素小矩阵中汉字所占像素数pi,i∈[1,8]应满足公式(1)的要求:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810838971.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top