[发明专利]一种适用于移动搜索的个性化词典构造方法有效

申请号：	201210346775.5	申请日：	2012-09-18
公开（公告）号：	CN103678385B	公开（公告）日：	2019-01-11
发明（设计）人：	王忠民;齐静娜;贺炎;邓万宇;梁琛;王文浪	申请（专利权）人：	西安邮电大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	710121***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种适用于移动搜索个性化词典构造方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种适用于移动搜索的个性化词典构造方法，词典结构中所引入的次字区位码分段哈希机制，将首字相同的词条根据次字区位码划分至多个子区间内，可实现在小范围内利用二分法快速查找次字，有效地提高了词典查询效率。同时，由于本发明提出的个性化词典在每个词条结构中引入了分类及使用频率等相关信息，在分词后即可直接获取用户查询内容所属的分类信息，满足了移动搜索个性化需求，便于系统进行查询扩展和查询推荐等相关处理。

技术领域

本发明涉及移动搜索中有关中文信息处理技术领域，具体来讲，涉及有关移动搜索中个性化词典构造方法。

背景技术

词是具有一定语义的最小单位，要想实现机器对中文语句的理解，首先需要进行分词处理以确定语句中的各个词。所谓分词，就是把一个句子按照其中词的含义进行切分。自动分词是中文信息处理的基本环节，分词所参照的词典机制及处理效率直接影响到系统处理效率和分词后所能提供的信息。

目前常用的词典机制主要基于整词二分法、TRIE索引树法和逐字二分法这三种方法，由于这些方法通过二分法实现对次字的查找，随着分词词典中词条数目的增长，会造成次字的查询范围过大，效率提高程度非常有限。也有在此基础上衍生出来的双字或多字哈希机制，但这些方法会使次字哈希表的长度过长或造成次字哈希表难于构建，导致词典的存储结构复杂难于管理。同时，鉴于目前基于常规的分词词典在分词结束后无法获取用户查询内容中的兴趣所在，因此无法满足移动搜索中高精确度及个性化的查询需求。

发明内容

本发明要解决的技术问题是提出一种适用于移动搜索的个性化词典构造方法，主要目的在于满足移动搜索中用户的个性化查询需求和高效的查询处理，提高用户的查询体验。

为解决上述问题，本发明提出了一种适用于移动搜索的个性化词典构造方法，其特征在于由首字哈希索引表、次字区位码分段哈希索引表、次字索引表和词典正文4个部分组成。

进一步地，上述词典的创建包括以下步骤：

(1)从已分类的原始线性词库中按序循环读出所有词条，每次读取一条，提取首字相关信息存储至首字哈希索引表中；

(2)提取词条次字及相关信息，根据相应的次字区位码分段哈希索引表哈希定位次字的存储位置；

(3)将次字存储于次字索引表中相应的存储区域内；

(4)提取词条中除去前两个字的词条后缀，保存至词典正文中相应的区域内。

本发明提出的词典结构同时包含了词条所属的分类信息，可在分词后直接获取到用户查询内容所属的类别信息，为用户兴趣获取提供了依据。其中，词条的分类编码规则是将日常生活中常见的12个主类及包含的子类信息按照主从关系进行分类编码，共分为三级，每级顺序进行编码，这种编码方式可由编码信息快速确定目标词的类别信息。

本发明提出的个性化词典构造方法，有效地克服了现有技术的不足。词典结构中所引入的次字区位码分段哈希机制，将首字相同的词条划分至20个子区间内，从而实现在小范围内利用二分法快速查找次字，有效地提高了词典查询效率；同时，分词结束后可直接获取到词典中所包含的词条分类信息，这些分类信息为用户兴趣的挖掘提供了依据。

附图说明

图1是本发明提出的个性化词典逻辑结构示意图；

图2是本发明提出的个性化词典的首字哈希索引表在内存中的数据结构图；

图3是本发明提出的个性化词典的次字区位码分段哈希索引表在内存中的数据结构图；

图4是本发明提出的个性化词典的次字索引表在内存中的数据结构图；

图5是本发明提出的个性化词典的词典正文在内存中的数据结构图；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安邮电大学，未经西安邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210346775.5/2.html，转载请声明来源钻瓜专利网。