[发明专利]一种汉语文本的大、小粒度切分实现方法和装置有效
申请号: | 200810089822.6 | 申请日: | 2008-03-28 |
公开(公告)号: | CN101246472A | 公开(公告)日: | 2008-08-20 |
发明(设计)人: | 朱鉴;李闪 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京德琦知识产权代理有限公司 | 代理人: | 宋志强;麻海明 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 汉语 文本 粒度 切分 实现 方法 装置 | ||
技术领域
本发明涉及文本信息自动处理技术领域,特别涉及一种汉语文本的大、小粒度切分实现方法和装置。
背景技术
由于汉语文本是基于单字的,即一段汉语文本是由单字组成的,表达该文本意义的词与词之间不像英语那样有显式的分隔标记,因此为了对汉语文本进行语义分析处理,首要的任务是对该文本中的每个词增加一个词界标记,使得所形成的词串能反映句子的本意。
现有的中文分词方法一般都能符合中文分词的基本要求,但中文分词是对文本最基础的分析处理,基于该处理之上,还有很多其他后续的文本处理操作,如汉语语音合成、汉语-外语语义自动翻译、汉语信息检索等,首先由分词单元对汉语文本进行分词处理,然后将分词结果提交给语音合成单元、机器翻译单元或检索单元进行后续处理,因此中文分词阶段应能根据后续的处理需求,保留相应的文本信息,以提高后续处理的效率。
现有的基于转换的错误驱动学习方法(TBL)是一种符号式的机器学习方法。由于该算法是一种机器学习算法,所以将其运用于分词粒度调整时,需要三个重要的组成部分:未切分的训练语料、标准语料和规则模版。其中:
未切分的训练语料,用于分词系统切分
标准语料,按特定的粒度标准切分好的语料
规则模版,表示一个规则集,它限定了学习中可能会用到的转换规则
使用TBL学习粒度调整规则的流程如下所示:
1、首先,利用分词系统对未切分的训练语料进行切分,形成最初的训练语料;
2、根据规则模板,构造所有可能的转换规则,并将其作用于训练语料,产生新的标注语料。通过比较标准语料和标注语料,选择能最大减少分词错误数的那条转换规则;
3、一旦选取某条转换规则,就把它作用于当前训练语料中,进行重新标注,形成新的训练语料;
4、重复步骤2,3,直到最终的分词粒度一致;
5、输出最终的转换规则序列。
实际应用时,需将上面得到的转换规则序列用于分词结果的后处理。即将转换规则序列作用于分词系统分词的结果,通过规则调整来得到所需的分词粒度。
该方法只能实现用单一粒度进行分词。但是,不同领域的文本处理操作需要不同粒度的分词结果。根据统计结果显示,在汉语语音合成、汉语-外语语义自动翻译等领域,需要分词单元提供一个粒度较大的分词结果,如正则表达式词“2007年10月17日”经过汉语分词处理后应保持原样,这样以提高语音合成或机器翻译的准确率。但对于汉语信息检索等领域来说,则需要提供一个粒度较小的结果,如同样是上述正则表达式词汇,则需要分成“2007/年/10/月/17/日”,这样做的目的是提高信息检索的召回率。因为常常用户在进行检索的时候,自己的需求不是很明确,或者说自己输入的检索词并不能完全表达自己的意愿,因此通过汉语分词对检索词分析,提供一个较小的粒度,然后提供给用户更多的信息,以备选择。
综上所述,现有技术的缺点在于,无法针对不同后续汉语文本处理需求提供相应粒度的汉语分词结果。
发明内容
有鉴于此,本发明实施例提出一种大、小粒度切分实现的方法,能够满足不同后续汉语文本处理需求。该方法包括如下步骤:
设置大粒度切分方式和小粒度切分方式;
根据输入的粒度需求,采用相应的粒度切分方式对汉语文本进行切分处理,并输出切分后的汉语文本。
本发明实施例还提出一种汉语文本的大、小粒度切分装置,包括:
模式词识别与粒度区分模块,用于识别汉语文本中的模式词,并对所识别的模式词进行粒度切分,并输出所述模式词作为模式词的大粒度切分结果,输出粒度切分后的模式词作为模式词的小粒度切分结果;
命名实体词识别模块,用于识别汉语文本中的命名实体词,输出识别出的命名实体词以及所述命名实体词的粒度信息;
输出模块,用于根据所述模式词识别与粒度区分模块得到的模式词的大粒度切分结果或小粒度切分结果,以及所述命名实体词识别模块所得到的命名实体词和所述命名实体词的粒度信息,并根据实际输入的粒度需求,输出根据所述粒度需求所对应的粒度划分的汉语字符串。从以上技术方案可以看出,预先设置大、小两种粒度划分标准,则可以根据实际需要采用相应的粒度对文本进行切分,能够满足不同后续汉语文本处理需求。
附图说明
图1为本发明实施例的汉语文本的大、小粒度切分基本实现流程图;
图2为本发明实施例根据模式词粒度标准对字符串进行粒度划分的流程图;
图3为本发明实施例对中文地名类命名实体词的识别及粒度划分过程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810089822.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种跳频信号时差估计方法
- 下一篇:轮椅车及汽车座椅及汽车