[发明专利]一种汉语文本的大、小粒度切分实现方法和装置有效
申请号: | 200810089822.6 | 申请日: | 2008-03-28 |
公开(公告)号: | CN101246472A | 公开(公告)日: | 2008-08-20 |
发明(设计)人: | 朱鉴;李闪 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京德琦知识产权代理有限公司 | 代理人: | 宋志强;麻海明 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 汉语 文本 粒度 切分 实现 方法 装置 | ||
1、一种汉语文本的大、小粒度切分实现方法,其特征在于,包括如下步骤:
设置大粒度切分方式和小粒度切分方式;
根据输入的粒度需求,采用相应的粒度切分方式对汉语文本进行切分处理,并输出切分后的汉语文本。
2、根据权利要求1所述的方法,其特征在于,所述设置大粒度切分方式和小粒度切分方式包括:
制定模式词类别以及相应的粒度标准,根据模式词类别生成不带有粒度信息的确定状态自动机DFA来识别模式词;根据模式词类别生成带有粒度信息的DFA来对模式词进行大、小粒度切分。
3、根据权利要求2所述的方法,其特征在于,所述制定模式词类别以及相应的粒度标准包括:
对于数字和除数字之外的其它字符共同组成的模式词,大粒度切分方式为将该模式词作为整体,小粒度切分方式为:将数字和除数字之外的其它字符切分开。
4、根据权利要求3所述的方法,其特征在于,所述对于数字和除数字之外的其它字符共同组成的模式词,大粒度切分方式为将该模式词作为整体,小粒度切分方式为将数字和其它字符切分开,包括如下任一种方式或其任意组合:
对于日期类模式词,大粒度切分方式为将日期词作为一个整体;小粒度切分方式为:将数字词和日期单位切分开;
对于金钱类模式词,大粒度切分方式为将该模式词作为一个整体;小粒度切分方式为将数字和金钱单位切开;
对于百分数类模式词,大粒度切分方式为将该百分数作为一个整体,小粒度切分方式为将数字和百分号切开;
对于度量类模式词,大粒度切分方式为将该模式词作为一个整体,小粒度切分方式为将数字和度量单位切开;
对于序数词类模式词,大粒度切分方式为将该模式词作为一个整体,小粒度切分方式为将序数词、数字和单位之间切开。
5、根据权利要求4所述的方法,其特征在于,所述度量类模式词包括:角度、速度、功率、容积、面积、温度、长度、重量、时间和/或年龄。
6、根据权利要求2所述的方法,其特征在于,所述制定模式词类别以及相应的粒度标准包括如下任一种:
对于电子邮件地址类模式词,大粒度切分方式为将电子邮件地址作为一个整体;小粒度切分方式为将@符号之前的字符串、@符号、@符号之后每个以点号分隔的字符串分别切开;
对于连续的英文字符或数字类模式词,大粒度切分方式和小粒度切分方式均为将该模式词作为整体,所述数字包括整数或小数;
对于英文字符、数字和其它字符中的两种或三种混杂的模式词,大粒度切分方式为将该模式词作为整体,小粒度切分方式为将英文字符、数字和其它字符彼此切开;
对于分数类模式词,大粒度切分方式为将该模式词作为整体,小粒度切分方式为将分子、分母以及分子和分母之间的分隔字或符号分开。
7、根据权利要求1至6任一项所述的方法,其特征在于,所述设置大粒度切分方式和小粒度切分方式包括:
从已标注语料中抽取出命名实体词,对命名实体词进行分类,给每一类命名实体词制定相应的识别类模板,用所述识别类模板对相应的命名实体词进行标注,得到包含粒度信息的命名实体词识别模型和关键词库。
8、根据权利要求7所述的方法,其特征在于,所述用所述识别类模板对相应的命名实体词进行标注,得到包含粒度信息的命名实体词识别模型和关键词库包括如下任意一种:
对中文人名,大粒度信息的命名实体词识别模型为将姓氏和名字作为整体;小粒度信息的命名实体词识别模型为将姓氏和名字切分开;
对于外文译名,大粒度信息和小粒度信息的命名实体词识别模型均将该词作为整体;
对于中文地名或组织机构名,大粒度信息的命名实体词识别模型为将该中文地名或组织机构名作为整体,小粒度信息的命名实体词模型为将该中文地名或组织机构名中的开始词、关键词以及各个非关键词切分开。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810089822.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种跳频信号时差估计方法
- 下一篇:轮椅车及汽车座椅及汽车