[发明专利]一种基于单词查找树实现的汉语拼音快速分词方法有效
| 申请号: | 201210332072.7 | 申请日: | 2012-09-10 |
| 公开(公告)号: | CN102867049A | 公开(公告)日: | 2013-01-09 |
| 发明(设计)人: | 于少飞;袁美英;杨震威 | 申请(专利权)人: | 山东康威通信技术股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 张勇 |
| 地址: | 250101 山东省济南市高新技*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 单词 查找 实现 汉语拼音 快速 分词 方法 | ||
1.一种基于单词查找树实现的汉语拼音快速分词方法,该方法通过计算机或者嵌入式可移动设备来实现,其特征是,主要工作步骤如下:
步骤一、根据所有已知的汉语单字拼音表建立汉语单字拼音查找树;
步骤二、依据已建立的单词查找树,将查找树与哈希表结合,对给定的一串汉语拼音进行分词;
步骤三、给出分词结果;
步骤四、销毁查找树,释放资源。
2.如权利要求1所述的一种基于单词查找树实现的汉语拼音快速分词方法,其特征是,所述步骤一中,根据所有已知的汉语单字拼音表建立单字拼音查找树,主要包含以下步骤:
(1)根节点不包含字符,除根节点外每一个节点都只包含一个字符;
(2)每个节点的所有子节点包含的字符都不相同;
(3)除叶子节点外,每个节点都有一个长度为26的哈希表,哈希表以26个英文字母的升序为索引,每个元素分别存储一个子节点,且子节点实际个数小于或等于26;
(4)每一个节点都包含一个标识字段,此字段取值0或1,用来标识从根节点到此节点,路径上经过的字符连接起来是否代表一个完整的汉语单字拼音。
3.如权利要求1所述的一种基于单词查找树实现的汉语拼音快速分词方法,其特征是,所述步骤二中,依据已建立的单词查找树,将查找树与哈希表结合,对给定的一串汉语拼音进行分词,主要包含以下步骤:
a)从根结点开始一次搜索;
b)取得要查找关键词的第一个字母,并根据该字母从哈希表中选择对应的子树并转到该子树继续进行检索;
c)在相应的子树上,取得要查找关键词的第二个字母,并进一步选择对应的子树进行检索;
d)迭代过程:取得关键词的第1、2……n个字母,继续查找。
4.如权利要求1所述的一种基于单词查找树实现的汉语拼音快速分词方法,其特征是,所述步骤三中,具体步骤如下:
1)在某个结点处,如果关键词的所有字母已被取出或节点的标识字段取值为1,则从根路径到当前节点依次输出所有字符和当前节点的标识字段值;
2)如果关键词所有字母已被取出,即完成查找;否则取得关键词的下一个字母,回到查找树的根节点继续迭代查找;
3)针对包含多个语义的关键词,输出分词结果。
5.如权利要求1所述的一种基于单词查找树实现的汉语拼音快速分词方法,其特征是,所述步骤四中,完成分词后,销毁查找树,释放资源,回收占用的内存。
6.如权利要求1所述的一种基于单词查找树实现的汉语拼音快速分词方法,其特征是,所述查找树是一种支持多态集合,包括插入、删除和查找操作的数据结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东康威通信技术股份有限公司,未经山东康威通信技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210332072.7/1.html,转载请声明来源钻瓜专利网。





