[发明专利]一种信息处理方法及装置有效
| 申请号: | 201210468061.1 | 申请日: | 2012-11-19 |
| 公开(公告)号: | CN103823814B | 公开(公告)日: | 2017-12-01 |
| 发明(设计)人: | 李鑫;李东华;刘廷超 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 深圳市深佳知识产权代理事务所(普通合伙)44285 | 代理人: | 唐华明 |
| 地址: | 518031 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 信息处理 方法 装置 | ||
技术领域
本发明涉及通信技术领域,尤其涉及一种信息处理方法及装置。
背景技术
随着计算机硬件性能的不断提升和软件智能性的不断提高,人们越来越期望计算机能够提供更加自然的人机交互方式,例如:(1)提供更加智能的汉语输入法;(2)提供更加精确的语音识别功能。而这些交互方式的实现,底层都需要有大而全的拼音词库的支持,所以,大规模拼音词库的查询效率直接影响着上述人机交互软件的执行速度,从而也就决定了它们的优劣。以拼音输入法为例,毫无疑问,准确和快速是它的生命线,为了提高准确率,目前的输入法系统都采用了超大规模的词库,用户进行输入时,程序需要根据输入的拼音进行大频繁的词库查询,从而提供准确的候选词语。
现有技术中,现有的拼音词库系统大都使用基于拼音和词长分组的存储查询方法,即对词库按照词长和词语的前N个拼音进行了索引,对于给定的一个拼音串,先获取其前N个音节及词长,到词库中对应词长的拼音分组表,找到该音节对应的分组,遍历该分组中的所有词语,返回拼音与要查找的拼音串相匹配的词语。
但在上述现有技术中,词库查询效率低,需要遍历同一分组中的所有词语,且词库扩容性能较差,当词库不断增大时,查询耗时将成倍增加,导致软件无法正常工作。
发明内容
本发明实施例提供了一种信息处理方法及装置,用以实现在拼音词库中,根据用户输入的拼音字符快速查找对应的词语。
本发明实施例提供的信息处理方法,包括:根据拼音音节及拼音身份标识号码ID的对应关系生成双数组字典树,所述双数组字典树包括:基值数组和校验数组,所述拼音ID为所述双数组字典树的状态转移量;接收需要查找的拼音ID串,所述拼音ID串为用户输入的拼音字符切分后对应的拼音ID构成的序列;在拼音词库中根据所述双数组字典树查找所述拼音ID串对应的词语;输出查找到的词语。
优选地,所述根据拼音音节及拼音ID的对应关系生成双数组字典树之前包括:设置拼音ID与拼音音节的对应关系。
进一步地,所述在拼音词库中根据所述双数组字典树查找所述拼音ID串对应的词语包括:从所述双数组字典树的根节点开始,按照所述需要查找的拼音ID串中的拼音ID和所述基值数组的值查找所述拼音ID串对应的词语;若所述拼音ID对应的是结束符,且所述双数组字典树的当前基值数组元素首个比特位为1,则输出当前查找到的词语。
进一步地,所述从所述双数组字典树的根节点开始,按照所述需要查找的拼音ID串中的拼音ID和所述基值数组的值查找所述拼音ID串对应的词语之后包括:若所述拼音ID对应的不是结束符,则判断当前校验数组的值是否与当前查找节点序列中转移状态前的节点的编号是否相等;若是,则按照所述需要查找的拼音ID串中的下一个拼音ID和当前基值数组的值之和继续查找下一个节点。
进一步地,所述接收需要查询的拼音ID串之前包括:将所述用户输入的拼音字符切分为音节,并将所述音节顺序连接为所述拼音ID串。
本发明实施例提供的信息处理装置,包括:生成单元,根据拼音音节及拼音身份标识号码ID的对应关系生成双数组字典树,所述双数组字典树包括:基值数组和校验数组,所述拼音ID为所述双数组字典树的状态转移量;接收单元,用于接收需要查找的拼音ID串,所述拼音ID串为用户输入的拼音字符切分后对应的拼音ID构成的序列;查找单元,用于在拼音词库中根据所述双数组字典树查找所述接收单元接收的所述拼音ID串对应的词语;输出单元,用于输出所述查找单元查找到的词语。
优选地,所述装置还包括:设置单元,用于设置拼音ID与拼音音节的对应关系。
进一步地,所述查找单元,还用于从所述双数组字典树的根节点开始,按照所述需要查找的拼音ID串中的拼音ID和所述基值数组的值查找所述拼音ID串对应的词语;
所述输出单元,还用于若所述拼音ID对应的是结束符,且所述双数组字典树的当前基值数组元素首个比特位为1,则输出当前查找到的词语。
进一步地,所述装置还包括:判断单元,用于若所述拼音ID对应的不是结束符,则判断当前校验数组的值是否与当前查找节点序列中转移状态前的节点的编号是否相等;
所述查找单元,还用于若是,则按照所述需要查找的拼音ID串中的下一个拼音ID和当前基值数组的值之和继续查找下一个节点。
进一步地,所述装置还包括:转换单元,用于将所述用户输入的拼音字符切分为音节,并将所述音节顺序连接为所述拼音ID串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210468061.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带云存储的移动电源
- 下一篇:无隔板组合式空气过滤器





