[发明专利]一种适用于移动搜索的个性化词典构造方法有效
申请号: | 201210346775.5 | 申请日: | 2012-09-18 |
公开(公告)号: | CN103678385B | 公开(公告)日: | 2019-01-11 |
发明(设计)人: | 王忠民;齐静娜;贺炎;邓万宇;梁琛;王文浪 | 申请(专利权)人: | 西安邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 710121*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种适用于移动搜索的个性化词典构造方法,词典结构中所引入的次字区位码分段哈希机制,将首字相同的词条根据次字区位码划分至多个子区间内,可实现在小范围内利用二分法快速查找次字,有效地提高了词典查询效率。同时,由于本发明提出的个性化词典在每个词条结构中引入了分类及使用频率等相关信息,在分词后即可直接获取用户查询内容所属的分类信息,满足了移动搜索个性化需求,便于系统进行查询扩展和查询推荐等相关处理。 | ||
搜索关键词: | 一种 适用于 移动 搜索 个性化 词典 构造 方法 | ||
【主权项】:
1.一种适用于移动搜索的个性化词典构造方法,其特征在于,所述词典由首字哈希索引表、次字区位码分段哈希索引表、次字索引表和词典正文4个部分组成;所述的首字哈希索引表由词的首字和属性信息及指向次字区位码分段哈希索引表的指针组成;所述的次字区位码分段哈希索引表由次字区位码所属的区间范围编号及指向次字索引表的指针组成;所述的次字区位码所属的区间范围划分依据是:通过对线性词库中所有词条的次字出现频率进行统计,按照统计结果将次字非均匀划分至不同的区间范围内;所述的对次字非均匀划分是指通过对线性词库中出现频率高的次字进行小间隔划分,出现频率低的次字进行大间隔划分,以实现将首字相同的词条按照次字区位码非均匀划分至20个不同的分段内,从而缩小首字相同的词的次字查询范围;所述的次字索引表由词的次字和属性信息及指向词典正文的指针组成;所述的词典正文由除去前两个字的剩余字串构成的剩余字串表及词的属性信息组成;所述方法包括:(1)从已分类的线性词库中按序循环读出所有词条,每次读取一条,提取首字相关信息存储至首字哈希索引表中;(2)提取词条次字及相关信息,根据相应的次字区位码分段哈希索引表哈希定位次字的存储位置;(3)将次字存储于次字索引表中相应的存储区域内;(4)提取词条中除去前两个字的词条后缀,保存至词典正文中相应的区域内。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安邮电大学,未经西安邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210346775.5/,转载请声明来源钻瓜专利网。
- 上一篇:故障预警系统
- 下一篇:一种磁定位装置、具有该磁定位装置的车模及其定位方法