[发明专利]一种切分索引分词的方法及系统有效
申请号: | 200710123051.3 | 申请日: | 2007-06-22 |
公开(公告)号: | CN101071420A | 公开(公告)日: | 2007-11-14 |
发明(设计)人: | 王启明 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 切分 索引 分词 方法 系统 | ||
1、一种切分索引分词的方法,其特征在于,包括以下步骤:
读取字符流;
识别所述字符流,确定汉字、英文字符或数字以及不可识别字符;
将已经确定的汉字、英文字符或数字与预先建立的词典树比较,确定匹配的分词;
将所述英文字符或数字进行ASCII码通用模糊匹配,确定英文字符串或者数字串的分词;
将上述匹配的分词和所述英文字符串或者数字串的分词以及不可识别字符,按所述字符流顺序进行排序;
按所述排序后的分词的顺序以及所述每个分词和上述不可识别字符的长度划分所述字符流。
2、根据权利要求1所述的切分索引分词的方法,其特征在于,所述词典树为预先建立的trie字符树数据结构。
3、根据权利要求1所述的切分索引分词的方法,其特征在于,所述词典树为预先建立的二进制流词典结构。
4、根据权利要求1至3任一所述的切分索引分词的方法,其特征在于,所述识别所述字符流后,将所述字符流存储在内部字符缓冲区。
5、根据权利要求4所述的切分索引分词的方法,其特征在于,所述字符流存储在内部字符缓冲区之前,将所述字符流进行统一字符的处理。
6、根据权利要求5所述的切分索引分词的方法,其特征在于,所述确定汉字、英文字符或数字以及不可识别字符后,去掉所述字符流中的标点符号。
7、根据权利要求1至3任一所述的切分索引分词的方法,其特征在于,所述词典树在预先建立时去除无意义的单字。
8、根据权利要求1至3任一所述的切分索引分词的方法,其特征在于,按所述排序后的分词的顺序以及所述每个分词和上述不可识别字符的长度划分所述字符流后进一步包括:
定期统计接收到的关键词的频率;
将频率高于预定数值的关键词添加到所述词典树中。
9、一种切分索引分词的系统,其特征在于,该系统包括:
读取单元,用于读取字符流;
字符流识别单元,用于将所述读取单元读取的字符流进行识别,确定汉字、英文字符或数字以及不可识别字符;
词典树单元,预先存储词组和短语的词典树的数据结构单元;
比较单元,用于将所述字符流识别单元确定的汉字、英文字符或数字与所述词典树单元预先建立的词典树比较,确定匹配的分词;
通用模糊匹配单元,用于将所述比较单元比较后的英文字符或数字进行ASCII码通用模糊匹配,确定英文字符串或者数字串的分词;
分词管理单元,将所述比较单元和所述通用模糊匹配单元确定的分词以及所述字符流识别单元确定的不可识别字符,按所述读取单元读取的字符流顺序进行排序,并记录每个上述分词和上述不可识别字符的长度;
分词划分单元,将所述读取单元读取的字符流,按照所述分词管理单元记录的分词顺序以及所述每个分词和上述不可识别字符的长度进行划分。
10、一种切分索引分词的系统,其特征在于,该系统包括:
读取单元,用于读取字符流;
字符流识别单元,用于将所述读取单元读取的字符流进行识别,确定汉字、英文字符或数字以及不可识别字符;
内部字符缓冲区单元,用于存储所述字符流识别单元识别的字符流;
词典树单元,预先存储词组和短语的词典树的数据结构单元;
比较单元,用于将所述字符流识别单元确定的汉字、英文字符或数字与所述词典树单元预先建立的词典树比较,确定匹配的分词;
通用模糊匹配单元,用于将所述比较单元比较后的英文字符或数字进行ASCII码通用模糊匹配,确定英文字符串或者数字串的分词;
分词管理单元,将所述比较单元和所述通用模糊匹配单元确定的分词以及所述字符流识别单元确定的不可识别字符,按所述内部字符缓冲区单元存储的所述字符流顺序进行排序,并记录每个上述分词和上述不可识别字符的长度;
分词划分单元,将所述内部字符缓冲区单元存储的字符流,按照所述分词管理单元记录的分词顺序以及所述每个分词和上述不可识别字符的长度进行划分;
词典自适应单元,由预先建立的统计模块统计关键词的出现频率,将所述出现频率高于预定数值的关键词添加到所述词典树单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710123051.3/1.html,转载请声明来源钻瓜专利网。