[发明专利]一种分词系统及方法无效
| 申请号: | 200710122439.1 | 申请日: | 2007-09-25 |
| 公开(公告)号: | CN101122900A | 公开(公告)日: | 2008-02-13 |
| 发明(设计)人: | 刘丽丽;陈德松 | 申请(专利权)人: | 中兴通讯股份有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 北京银龙知识产权代理有限公司 | 代理人: | 许静 |
| 地址: | 518057广东省深圳市南山*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 分词 系统 方法 | ||
1.一种分词方法,其特征在于,包括如下步骤:
A、将待分词文本利用切分标记分割成字串;
B、对所述字串进行机械分词处理;
C、对机械分词结果中的连续单字进行地名识别。
2.如权利要求1所述的分词方法,其特征在于,所述步骤B具体包括:
将所述字串与机械分词词库进行匹配,将匹配成功的字串作为词输出,并将匹配失败的字串作为单字处理。
3.如权利要求2所述的分词方法,其特征在于,所述步骤C具体包括:
将机械分词结果中的连续单字与预先定义的地名模式库进行匹配,将匹配成功的连续单字作为地名输出,将匹配失败的连续单字继续作为单字处理。
4.如权利要求3所述的分词方法,其特征在于,步骤C之后还包括:
将地名识别中匹配成功的地名添加到机械分词词库中。
5.如权利要求1所述的分词方法,其特征在于:
所述切分标记包括显示切分标记和隐式切分标记,所述显示切分标记包括标点符号、数字、字母和ASCII字符,所述隐式切分标记包括出现频率高、构词能力差的单字词。
6.一种分词系统,其特征在于,包括:
预处理模块,用于将待分词文本利用切分标记分割成字串;
机械分词模块,用于对所述分割的字串进行机械分词处理;
地名识别模块,用于对所述机械分词处理得到的连续单字进行地名识别。
7.如权利要求6所述的分词系统,其特征在于,所述机械分词模块进一步用于:
将所述分割的字串与机械分词词库进行匹配,将匹配成功的字串作为词输出,并将匹配失败的字串作为单字处理。
8.如权利要求7所述的分词系统,其特征在于,所述地名识别模块进一步用于:
将所述机械分词处理得到的连续单字与预先定义的地名模式库进行匹配,将匹配成功的连续单字作为地名输出,将匹配失败的连续单字继续作为单字处理。
9.如权利要求8所述的分词系统,其特征在于,还包括:
地名模式库维护模块,用于维护地名识别模块使用的地命模式库信息;
词库维护模块,用于维护机械分词模块使用的机械分词词库信息。
10.如权利要求9所述的分词系统,其特征在于:
所述地名识别模块,进一步用于将匹配成功的地名发送到词典维护模块;
所述词库维护模块,进一步用于将所述匹配成功的地名信息增加到机械分词词库中去。
11.如权利要求6所述的分词系统,其特征在于:
所述切分标记包括显示切分标记和隐式切分标记,所述显示切分标记包括标点符号、数字、字母和ASCII字符,所述隐式切分标记包括出现频率高、构词能力差的单字词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710122439.1/1.html,转载请声明来源钻瓜专利网。





