[发明专利]一种输入法词库的处理方法和装置有效
申请号: | 201010206002.8 | 申请日: | 2010-06-23 |
公开(公告)号: | CN102298581B | 公开(公告)日: | 2015-11-25 |
发明(设计)人: | 刘致远 | 申请(专利权)人: | 深圳市腾讯计算机系统有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F3/023 |
代理公司: | 上海波拓知识产权代理有限公司 31264 | 代理人: | 杨波 |
地址: | 518057 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 输入法 词库 处理 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,尤其是涉及一种输入法词库的处理方法和 装置。
背景技术
随着计算机的不断发展,网络的不断普及,计算机输入法成了一个必不 可少的工具软件。输入法是指为了将各种符号输入计算机或其他设备(如手 机)而采用的编码方法。如果想在计算机世界中与他人交流,那么就必须要 掌握至少一门输入方法。
目前,互联网已成为人们生活、工作、学习不可或缺的工具,正对社会 生活的方方面面产生深刻影响。电子商务、网络广告、网络游戏、搜索引擎 等互联网产业市场规模同比增长均超过20%,而这一切都离不开输入法技术。 工业和信息化部发布的数据显示,截至2010年一季度末,中国互联网网民总 数达到4.04亿,中国社交网站的用户达到1.91亿,如此众多的网络用户,几 乎每时每刻都在进行着人机对话,能够实现对话的前提便是输入法技术。正 因如此,输入法技术的发展始终牵动着网络产业的神经,伴随着文明的脉搏 在跃动。
而词库对于输入法的地位是不容忽视的。一个输入法依据性质的不同, 对词库的依赖程度也不同。有些很老的书法是不依靠词库的,它重视的是字 的输入。这样肯定大大降低了输入法的组词功能。例如用户终端想用拼音输 入法打出一个人名“黄继光”(或一个电影名“泰坦尼克号”),如果没有词库的 输入法,就算完全拼出“huangjiguagn”(或“taitannikehao”),输入法也无法给 出正常结果,还要对每个音对应的字做选择,但当输入法有了收集包含有这 些词的词库,就算简易的拼写“hjg”(或“ttnkh”),输入法也会通过组词算法优 先在词库中选取使用概率更高的词语而给出正确结果。
虽然不同的输入法对词库有不同的运用方式(组词算法不同),但毋庸置 疑,词库越丰富的输入法,相对到使用者的输入效率也会相对更高。
目前词库的来源主要是两种,一种是收集用户终端输入过的词语,通过 分割后合并在一个词库里,该词库通常称为“用户词库”。另一种是通过收集现 有资料组词专用词库。这些资料有可能是书籍典故,如《唐诗三百首》,也可 能是现有著名的电影名字合集,只要是有用的资料都可以做成词库。但这里 有个值得重视的问题,就是词库的大小与品质比的问题:一般输入法一个词 库大小通常是一万到十万的差别。词库的品质直接关系到使用者的输入效率, 越多的词库,固然在理论上越能让使用者输入更方便,但是收录太多不常用 的词语,反而会让输入效率降低,因为太多不常用的词会影响到常用词汇在 输入时的必须字排列。因此,按照用户常用词汇来排序对于提高输入效率是 十分重要的。
而搜索引擎技术是近几年非常热门的技术,搜索引擎已成为网络用户通 过输入搜索词汇查询互联网上信息资源的平台,其中,搜索词汇是用户在使 用搜索引擎时输入的、能够最大程度概括用户所要查找的信息内容的字或者 词,是网络用户常用词汇的集中体现,是信息的概括化和集中化。搜索词汇 中词频高的词汇,往往又是各种类型的常用词汇或热门词汇或新产生的热门 词汇。
因而,对于输入法词库来说,搜索词汇的专用词库能够很好的应对词库 的大小与品质比的问题。但是目前却没有用于搜索词汇的专用词库,因为搜 索引擎本的输入词本来就是未知的,如果按通常的方法收录所有的搜索词汇 显然不切实际,想要直接收录搜索词是不可能的,词量太大,无法实现。
发明内容
本发明提供一种输入法词库的处理方法和装置,为输入法提供了关于搜 索词汇的专用词库。
为了达到上述目的,本发明提供一种输入法词库的处理方法,包括:
获取第一用户终端组输入的搜索词汇信息;
根据所述搜索词汇信息生成专有词库;
将所述专有词库发送给第二用户终端组,以供第二用户终端组添加专有 词库。
所述获取用户终端在搜索引擎中输入的搜索词汇信息,具体包括:
从搜索引擎数据库中获取第一用户终端组输入的搜索词汇信息,其中, 所述搜索引擎数据库中存储了所述第一用户终端组在搜索引擎中输入的搜索 词汇信息。
根据所述搜索词汇信息生成专有词库,具体包括:
根据所述搜索词汇信息确定待选词;
根据所述待选词获取待选词集合;
根据所述待选词集合生成所述专有词库。
根据所述待选词获取待选词集合,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市腾讯计算机系统有限公司,未经深圳市腾讯计算机系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010206002.8/2.html,转载请声明来源钻瓜专利网。