[发明专利]基于广义后缀树的中文搜索引擎模糊自动补全方法有效
| 申请号: | 201110003711.0 | 申请日: | 2011-01-10 |
| 公开(公告)号: | CN102063508A | 公开(公告)日: | 2011-05-18 |
| 发明(设计)人: | 吴朝晖;冯叶磊;姜晓红 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 杭州裕阳专利事务所(普通合伙) 33221 | 代理人: | 冉国政 |
| 地址: | 310027 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 广义 后缀 中文搜索引擎 模糊 自动 方法 | ||
1.一种基于广义后缀树的中文搜索引擎模糊自动补全方法,其特征在于包括以下步骤:
步骤一:建立词的广义后缀树索引
利用现有的建立后缀树的方法,对中文词库中的所有词建立广义后缀树索引;
步骤二:计算字的相似度
对于GBK编码中的每个中文字进行预处理,计算每个字两两之间的音形相似度 ,将计算结果以数组的形式存储于音形相似度数据库中;计算每个字两两之间的字形相似度,将计算结果以数组的形式存储于字形相似度数据库中;
步骤三:计算相似度接近的词的权重值
依据用户输入的中文字符串,在步骤二所述的音形相似度数据库和/或字形相似度数据库中查找相似度接近的词,计算这些相似度接近的词的权重值;
步骤四:模糊自动补全
依据步骤三计算出的权重值,得到最终排序过的多个自动补全候选词。
2.根据权利要求1所述的基于广义后缀树的中文搜索引擎模糊自动补全方法,其特征在于:权利要求1的步骤二中所述的音形相似度,是根据字的发音混淆程度计算得到的数据,如果两个字发音完全相同,设定其相似度数值为a1 ;如果两个字发音只有声调不同,设定其相似度数值为a2 ;如果两个字属于易混淆词表中的字,设定其相似度数为a3 ;所述a1、a2和a3满足下列条件:a1小于1,且a1>a2>a3>0。
3.根据权利要求2所述的基于广义后缀树的中文搜索引擎模糊自动补全方法,其特征在于:设定所述a1=0.9;设定所述a2=0.8;设定所述a3=0.7。
4.根据权利要求1所述的基于广义后缀树的中文搜索引擎模糊自动补全方法,其特征在于:权利要求1的步骤二中计算所述字形相似度的步骤包括:
步骤一:把每个字分别转化成图形;
步骤二:把每个字的所述图形转化成像素的矩阵;
步骤三:计算每个字两两之间的字形相似度
其中,代表字,代表字的相似度,n为字转化为图形的像素矩阵维数,为字像素矩阵第p行第q列的取值。
5.根据权利要求3所述的基于广义后缀树的中文搜索引擎模糊自动补全方法,其特征在于:权利要求1的步骤二中计算所述字形相似度的步骤包括:
步骤一:把每个字分别转化成图形;
步骤二:把每个字的所述图形转化成像素的矩阵;
步骤三:计算每个字两两之间的字形相似度
。
6.根据权利要求1至5所述的任一种基于广义后缀树的中文搜索引擎模糊自动补全方法,其特征在于:权利要求1步骤一中所述广义后缀树的实现方法为:对于一个词库,通过使用Ukkonen算法来构造广义后缀树,假设词库中词的平均长度为m,则构造算法的时间复杂度为。
7.根据权利要求1至5所述的任一种基于广义后缀树的中文搜索引擎模糊自动补全方法,其特征在于:权利要求1步骤二中,使用Mathematica来计算字形的相似度,把GBK中的中文字全部转化成数字,定量的计算每个字两两之间的矩阵的相似度。
8.根据权利要求1至5所述的任一种基于广义后缀树的中文搜索引擎模糊自动补全方法,其特征在于:权利要求1步骤三采用基于有权重的编辑距离来计算所述广义后缀树中候选词与用户输入的中文字符串之间的相似度,保留传统编辑距离计算方法中插入和删除操作权值为1,改变替换操作的权值为1- 。
9.根据权利要求1至5所述的任一种基于广义后缀树的中文搜索引擎模糊自动补全方法,其特征在于:权利要求1步骤四中查找自动补全候选词采用动态规划算法,其步骤为:
步骤一:维护一个包含节点和权重编辑距离的优先队列,加入所述广义后缀树根节点;
步骤二:按序读取用户输入的中文字符串的单个字符c;
步骤三:从优先队列中读取一个节点,等于节点的编辑距离,对于节点的所有儿子节点,如果中的字符和c不同,把()加入优先队列;如果中的字符和c相同,把()加入优先队列,然后对于与相距的每个后代节点,其中为容错阈值,把()加入优先队列;
步骤四:重复步上述骤三,直到旧优先队列中元素读取完;
步骤五:重复上述步骤二,直到读取完输入的字符串。
10.根据权利要求9所述的基于广义后缀树的中文搜索引擎模糊自动补全方法,其特征在于:权利要求1步骤四中,综合考虑依据用户输入的中文字符串与候选词的相似度和基于候选词本身热度而形成的权值,采用的排序函数为,,其中代表字符串q与候选词w的关联打分函数,和为权值调节因子,为q和w的编辑距离,为候选词w的热度权值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110003711.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:抽拉式模具架
- 下一篇:一种运输设备的组合系统





