[发明专利]一种快速分词的实现方法无效
申请号: | 200910107961.1 | 申请日: | 2009-06-16 |
公开(公告)号: | CN101576877A | 公开(公告)日: | 2009-11-11 |
发明(设计)人: | 程治永 | 申请(专利权)人: | 程治永 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518059广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 分词 实现 方法 | ||
技术领域:
本发明涉及计算机自然语言处理领域,尤其涉及一种快速分词的实现方法。
背景技术:
自然语言处理(Natural Language Processing简称NLP)是计算机人工智能和语言学领域的交叉学科。此领域中探讨如何处理及运用自然语言,实现人与计算机之间用自然语言进行有效信息交换。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。搜索引擎发展成为互联网的基础应用,使得人们能够方便的进行信息的检索,在这个过程中自然语言处理技术得到了很大的推进。
英文是以单词为单位的,句中的单词靠空格隔开,而中文等语言是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子He like apple,用中文则为:“他喜欢苹果”。计算机可通过空格分隔符知道like是一个单词,但要明白“喜”、“欢”两个字合起来才表示一个词则需要进行更多的处理和运算。把文字序列切分成有意义的单独的词,就是分词,有时也称为切词。他喜欢苹果,分词的结果是:他喜欢苹果。在对中文等语言的自然语言处理过程中,需要自动对中文文本进行词语的切分,即像英文那样使得中文句子由字的序列转换为词的序列。中文自动分词被认为是中文自然语言处理中的一个最基本的环节。分词的性能将直接影响自然与语言处理系统的整体性能。
计算机中央处理器(CPU)的计算能力正在不断的增强,存储器的容量和性价比也在不断的提升,与此同时待处理数据也在不断的增加,从2006年到2010年,全球数字信息量将增长6倍,不断高速增长的自然语言文本数据,客观上需要高性能的分词方法以应对海量文本数据的处理。
自动分词的过程是将连续文本进行正向和反向潜在词语切割,罗列出所有潜在的词语组合。在需要最优切割路径的应用中,可先前切出的潜在的词语组合中借助最长匹配、最短路径、概率统计等评估方法,计算出最优的切割路径。因此进行正向和反向潜在词语切割的速度直接决定了分词系统的性能。
发明内容:
针对高性能、海量自然语言文本处理的需求,本发明的目的是提供快速分词系统的实现方法。
本发明是这样实现的:一种快速分词的实现方法,包括以下主要过程和步骤:
基于词条查找树的快速分词方法,词条查找树由一级索引表和HASH多叉树构成。一级索引表是数组,通过下标直接访问,可快速缩小搜索范围,时间复杂度为常数。HASH多叉树是基于HASH的多叉树,即每个节点的子节点列表通过HASH散列,查找的时候平均时间复杂度为常数。通过词条添加操作构建词条查找树,利用词条查找树进行快速分词。
所述HASH多叉树:
HASH多叉树和一级索引表相连,以进一步加快词条查找树的搜索速度。
HASH多叉树中的节点为字符节点,字符节点至少包含:字符值,词条结束标志,子节点数,子节点列表,在上级节点中的HASH冲突的下一个兄弟节等信息。子节点列表是通过HASH散列的列表。
HASH桶的大小由子节点数确定,并在增加子节点时自动扩展,并根据新HASH桶大小重新构造节点。动态增长的HASH桶可以减少HASH冲突,同时保证匹配效率和资源利用率。通过子节点数获得最佳HASH桶的大小,可事先好的值的对应表,以加快计算速度。
根据HASH值获得HASH位置的操作,用与操作替换取模操作可以加快运算速度,即HASH值和一个特定值进行与运算来获得HASH索引,该特定值和HASH桶大小相关,可以取小于HASH桶大小且BIT位连续为1的最大值,可事先好的值的对应表,以加快计算速度。
所述一级索引表:
前导字符是首先取出并处理的字符,可快速缩小搜索范围。前导字符和一级索引表密切相关,前导字符的数目等于一级索引表的维数。前导字符至少可以为1个,对应的快速索引表的记录数为256(1×256)。如果最小词条字节数均不小于2则前导字符可以为2个,对应的快速索引表的记录数为65536(256×256)。256是字符值的个数(0-255)。
添加词条操作:
步骤1.从被添加词条中取出前导字符,在一级索引表中进行匹配。若记录不存在,为前导字符构造字符节点,并将该节点加入到一级索引表中,并记录为当前节点;若记录存在,则直接记为当前节点。
步骤2.取出被添加词条的下一个字符,在当前节点的子节点列表中进行匹配。如果不存在,则为该字符构造一个字符节点,并添加到当前节点的子节点列表中,并记录新添加节点为当前节点;如果存在则直接设置为当前节点。重复步骤2的过程,直到被添加词条所有字符被加入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于程治永,未经程治永许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910107961.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:铁水罐车快速脱卸式高温视窗
- 下一篇:开槽推入旋转式辊轴与辊架