[发明专利]一种适用于专业搜索引擎的分词方法在审
申请号: | 201210491416.9 | 申请日: | 2012-11-27 |
公开(公告)号: | CN103838794A | 公开(公告)日: | 2014-06-04 |
发明(设计)人: | 郑世明 | 申请(专利权)人: | 大连灵动科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 曲永祚 |
地址: | 116023 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 适用于 专业 搜索引擎 分词 方法 | ||
1.一种适用于专业搜索引擎的分词方法,其特征在于:包括以下步骤:
A、根据专业主词典表和同义词词典表首先建立首字索引视图和首字词条视图;
B、初始化时用数组将整个字典的两个视图数据装入内存;
C、根据标点进行粗切分,然后从句子中按顺序取出一个汉字在首字索引视图中用二分法进行查找,若未找到则进入下次循环;
D、否则转到首字词条视图中分别按其中同的“词条长度”截取句子相应长度的字符串;
E、按首字词条视图中的词条顺序取出所有以该字开头的词条名并与相应长度的截取串进行比较,比较次数由首字索引视图中首字词数目决定;
若再匹配成功则对相应词条统计计数,如果词条来源于主词典直接给该词计数,如果词条来源于同义词典则应对该词所对应的主词典词计数;
同时跳过该词条包含的汉字进入下一次循环;否则直接进入下次循环;
F、重复步骤A-E直到文章结束为止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连灵动科技发展有限公司,未经大连灵动科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210491416.9/1.html,转载请声明来源钻瓜专利网。