[发明专利]基于广义后缀树的中文搜索引擎模糊自动补全方法有效
申请号: | 201110003711.0 | 申请日: | 2011-01-10 |
公开(公告)号: | CN102063508A | 公开(公告)日: | 2011-05-18 |
发明(设计)人: | 吴朝晖;冯叶磊;姜晓红 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州裕阳专利事务所(普通合伙) 33221 | 代理人: | 冉国政 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 广义 后缀 中文搜索引擎 模糊 自动 方法 | ||
技术领域
本发明涉及计算机搜索引擎技术,尤其是一种基于广义后缀树的中文搜索引擎模糊自动补全方法。
背景技术
近年来,搜索引擎因其能够在几乎无限的资源中为广大用户找到所需的信息而越来越受到重视。优秀的搜索引擎也不断涌现,如:Google,Baidu等。在搜索引擎系统中,自动补全是一项非常有用的技术。当用户在搜索框输入字符串的前缀时,自动补全接口能够立刻返回与该前缀匹配的候选词集合。比如Google Suggest能够为用户提供查询补全,Facebook能够为用户提供好友查询补全。但是主流搜索引擎如Google,Baidu所提供的是精确自动补全,当用户键入的字符串没有错误时,这种方法工作良好,如果用户在键入字符串时发生错误,精确自动补全便不能为用户提供候选词。针对上述不足,微软已经提出了一种基于字典的后缀树(Suffix tree)模糊自动补全方法,能够处理英文语境下单词的模糊匹配,当用户在键入字符串时发生了小错误,用户期望的字符串仍能被自动补全。所述后缀树的概念最早由Weiner 于1973年提出,既而由McCreight 在1976年和Ukkonen在1992年和1995年加以改进完善,其实质是一种数据结构,能用来支持有效的字符串匹配和查询,快速解决很多关于字符串的问题。
然而,微软的基于字典的后缀树模糊自动补全方法,却不支持中文。英文以词为单位,一个词表示一种意思,模糊自动补全就是搜索与前缀匹配的候选字母,依据字典使其凑成数个可选的单词;中文与英文大不相同,中文以字为单位,单独的一个字,就至少包含一个确定的含义。
发明内容
本发明的目的在于:提供一种基于广义后缀树的中文搜索引擎模糊自动补全方法,能够增强中文自动补全的功能和适用性。
为实现上述目的,本发明可采取下述技术方案:
本发明一种基于广义后缀树的中文搜索引擎模糊自动补全方法,包括以下步骤:
步骤一:建立词的广义后缀树索引
利用现有的建立后缀树的方法,对中文词库中的所有词建立广义后缀树索引;
步骤二:计算字的相似度
对于GBK编码中的每个中文字进行预处理,计算每个字两两之间的音形相似度 ,将计算结果以数组的形式存储于音形相似度数据库中;计算每个字两两之间的字形相似度,将计算结果以数组的形式存储于字形相似度数据库中;
步骤三:计算相似度接近的词的权重值
依据用户输入的中文字符串,在步骤二所述的音形相似度数据库和/或字形相似度数据库中查找相似度接近的词,计算这些相似度接近的词的权重值;
步骤四:模糊自动补全
依据步骤三计算出的权重值,得到最终排序过的多个自动补全候选词。
权利要求1的步骤二中所述的音形相似度,是根据字的发音混淆程度计算得到的数据,如果两个字发音完全相同,设定其相似度数值为a1 ;如果两个字发音只有声调不同,设定其相似度数值为a2 ;如果两个字属于易混淆词表中的字,设定其相似度数为a3 ;所述a1、a2和a3满足下列条件:a1小于1,且a1>a2>a3>0。
设定所述a1=0.9;设定所述a2=0.8;设定所述a3=0.7。
权利要求1的步骤二中计算所述字形相似度的步骤包括:
步骤一:把每个字分别转化成图形;
步骤二:把每个字的所述图形转化成像素的矩阵;
步骤三:计算每个字两两之间的字形相似度
其中,代表字,代表字的相似度,n为字转化为图形的像素矩阵维数,为字像素矩阵第p行第q列的取值。
权利要求1的步骤二中计算所述字形相似度的步骤包括:
步骤一:把每个字分别转化成图形;
步骤二:把每个字的所述图形转化成像素的矩阵;
步骤三:计算每个字两两之间的字形相似度
。
权利要求1步骤一中所述广义后缀树的实现方法为:对于一个词库,通过使用Ukkonen算法来构造广义后缀树,假设词库中词的平均长度为m,则构造算法的时间复杂度为。
权利要求1步骤二中,使用Mathematica来计算字形的相似度,把GBK中的中文字全部转化成数字,定量的计算每个字两两之间的矩阵的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110003711.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:抽拉式模具架
- 下一篇:一种运输设备的组合系统