[发明专利]一种分词系统及方法无效
| 申请号: | 200710122439.1 | 申请日: | 2007-09-25 |
| 公开(公告)号: | CN101122900A | 公开(公告)日: | 2008-02-13 |
| 发明(设计)人: | 刘丽丽;陈德松 | 申请(专利权)人: | 中兴通讯股份有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 北京银龙知识产权代理有限公司 | 代理人: | 许静 |
| 地址: | 518057广东省深圳市南山*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 分词 系统 方法 | ||
技术领域
本发明涉及分词领域,尤其涉及一种分词系统及方法。
背景技术
分词是指将字序列切分成有意义的词序列,又称为切词。分词系统将组成文本的字串自动转换成词串的过程称为自动切分。相对来说,英语等印欧语言的词之间有空格等符号分格,切分比较容易。而汉语文本是连续的汉字串,其中的词与词之间没有明确的分隔标记,分词系统需要自动识别词边界,将汉字串切分为正确的词串。
现有较成熟的分词方法是专利文献CN02127005.8中公开的分词方法,该方法是基于字符串匹配的分词方法。这种基于字符串匹配的分词方法又称为机械分词方法,它是按照一定的策略将待处理的字串与词库中的词条进行匹配,若在词库中找到某个字符串,则匹配成功。但机械分词方法在地名的识别上存在如下缺陷:
基于字符串匹配的分词方法中,只能识别词库中已经收录的词条,地名和街道名称众多,无法完全收录,识别效果较差;
基于字符串匹配的分词方法中,无法识别新的地名和街道名称,每天都有可能产生新的地名和街道名称,但词库没有进行同步更新,也就无法进行识别。
发明内容
本发明所要解决的技术问题是提供一种包含地名识别的分词系统及方法,实现对包含地名、街道名称的文本的分词,以提高分词的准确度。
为解决上述技术问题,本发明提供技术方案如下:
一种分词方法,包括如下步骤:
A、将待分词文本利用切分标记分割成字串;
B、对所述字串进行机械分词处理;
C、对机械分词结果中的连续单字进行地名识别。
所述步骤B具体包括:将所述字串与机械分词词库进行匹配,将匹配成功的字串作为词输出,并将匹配失败的字串作为单字处理。
所述步骤C具体包括:将机械分词结果中的连续单字与预先定义的地名模式库进行匹配,将匹配成功的连续单字作为地名输出,将匹配失败的连续单字继续作为单字处理。
步骤C之后还包括:将地名识别中匹配成功的地名添加到机械分词词库中。
所述切分标记包括显示切分标记和隐式切分标记,所述显示切分标记包括标点符号、数字、字母和ASCII字符,所述隐式切分标记包括出现频率高、构词能力差的单字词。
一种分词系统,包括:
预处理模块,用于将待分词文本利用切分标记分割成字串;
机械分词模块,用于对所述分割的字串进行机械分词处理;
地名识别模块,用于对所述机械分词处理得到的连续单字进行地名识别。
所述机械分词模块进一步用于:将所述分割的字串与机械分词词库进行匹配,将匹配成功的字串作为词输出,并将匹配失败的字串作为单字处理。
所述地名识别模块进一步用于:将所述机械分词处理得到的连续单字与预先定义的地名模式库进行匹配,将匹配成功的连续单字作为地名输出,将匹配失败的连续单字继续作为单字处理。
所述分词系统还包括:地名模式库维护模块,用于维护地名识别模块使用的地命模式库信息;词库维护模块,用于维护机械分词模块使用的机械分词词库信息。
所述地名识别模块,进一步用于将匹配成功的地名发送到词典维护模块;所述词库维护模块,进一步用于将所述匹配成功的地名信息增加到机械分词词库中去。
本发明所述的分词系统及方法,具有如下主要有益效果:
利用机械分词结合地名模式匹配,实现了对包含地名、街道名称的文本的分词,提高了分词的准确度;进一步,识别出的地名可以作为新增地名更新到机械分词词库中,在分词的同时有效扩展了机械分词词库中的地名信息。
附图说明
图1为本发明较佳实施例的分词系统的结构示意图;
图2为本发明较佳实施例的分词方法的流程示意图。
具体实施方式
本发明的基本思想是:先利用切分标记将待分词文本分割成字串;然后对所述字串进行机械分词处理,在机械分词处理中,将匹配失败的字串作为单字处理;最后对机械分词结果中连续的单字进行地名识别。如此,便可以识别出常见的地名、街道名称,提高了分词的准确率。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
请参照图1,本发明较佳实施例的分词系统主要包括预处理模块10、机械分词模块20和地名识别模块30,其中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710122439.1/2.html,转载请声明来源钻瓜专利网。





