[发明专利]基于广义后缀树的中文搜索引擎模糊自动补全方法有效
申请号: | 201110003711.0 | 申请日: | 2011-01-10 |
公开(公告)号: | CN102063508A | 公开(公告)日: | 2011-05-18 |
发明(设计)人: | 吴朝晖;冯叶磊;姜晓红 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州裕阳专利事务所(普通合伙) 33221 | 代理人: | 冉国政 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于广义后缀树的中文搜索引擎模糊自动补全方法,包括步骤一:建立词的广义后缀树索引,利用现有的建立后缀树的方法,对中文词库中的所有词建立广义后缀树索引;步骤二:计算字的相似度;步骤三:计算相似度接近的词的权重值;步骤四:模糊自动补全。本发明依据中文语境中以字为单位的特点,利用广义后缀树能够高效的保存词库中所有词的后缀,根据相似度权重,在计算机上实现了中文搜索引擎的模糊自动补全,从而增强了计算机中文自动补全的功能和适用性。本方法中的模糊自动补全,不仅可以支持传统的中文前缀补全,而且能够支持中文的任意中缀补全。 | ||
搜索关键词: | 基于 广义 后缀 中文搜索引擎 模糊 自动 方法 | ||
【主权项】:
1.一种基于广义后缀树的中文搜索引擎模糊自动补全方法,其特征在于包括以下步骤:步骤一:建立词的广义后缀树索引利用现有的建立后缀树的方法,对中文词库中的所有词建立广义后缀树索引;步骤二:计算字的相似度对于GBK编码中的每个中文字进行预处理,计算每个字两两之间的音形相似度
,将计算结果以数组的形式存储于音形相似度数据库中;计算每个字两两之间的字形相似度
,将计算结果以数组的形式存储于字形相似度数据库中;步骤三:计算相似度接近的词的权重值依据用户输入的中文字符串,在步骤二所述的音形相似度数据库和/或字形相似度数据库中查找相似度接近的词,计算这些相似度接近的词的权重值;步骤四:模糊自动补全依据步骤三计算出的权重值,得到最终排序过的多个自动补全候选词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110003711.0/,转载请声明来源钻瓜专利网。
- 上一篇:抽拉式模具架
- 下一篇:一种运输设备的组合系统