[发明专利]拼音字符串处理方法和装置在审
申请号: | 201310370370.X | 申请日: | 2013-08-22 |
公开(公告)号: | CN104423621A | 公开(公告)日: | 2015-03-18 |
发明(设计)人: | 张雷;张霓 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F3/023 | 分类号: | G06F3/023;G06F17/27 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 兰淑铎 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 拼音 字符串 处理 方法 装置 | ||
技术领域
本发明涉及输入法技术领域,特别是涉及一种拼音字符串处理方法和装置。
背景技术
输入法是按照拼音字符串即拼音串输入汉字的方法,为了能把用户输入的拼音字符串转换为汉字输出,需要首先对用户输入的拼音字符串进行切分,将拼音字符串分割为合法的音节组合,然后将音节组合转换为汉字。
一种拼音字符串处理方法如图1所示,该方法包括以下步骤:步骤S102,对接收到的拼音字符串进行切分,分别将拼音字符串中的声母和韵母作为切分子串得到切分子串序列;步骤S104,对切分子串序列中的切分子串进行扩展,并根据扩展结果生成扩展子串序列集合;步骤S106,按照音节组成特征对扩展子串序列集合中每个扩展子串序列进行音节抽取,得到对应的音节序列;步骤S108,对各音节序列中的音节组合进行合法性验证,并根据验证结果删除包含有非法音节的音节序列;步骤S110,输出进行了合法性验证后的音节组合。
使用上述拼音字符串处理方法输入汉字时,由系统采用简单匹配的方式显示各组音节组合供用户选择,如采用固有的规律对拼音字符串进行分词,按照顺序显示音节组合,也即,系统过于粗暴地为用户将拼音字符串对应的音节组合做了排序和选择。尤其是在用户使用传统的九键键盘时,使用九键拼音输入法进行输入时,由于键盘中每个按键存在复用的情况,输入的每个拼音字符串对应了很多的音节组合,上述传统的拼音字符串处理方式无法满足用户对输入的内容的期望,这种方式仅能够统一地给出同样的各组音节组合的排序,导致用户在选择需要的音节组合时会使用较多的交互动作才能查找到欲输入的候选项,降低了输入效率。
发明内容
本发明提供了一种拼音字符串处理方法和装置,以解决目前的拼音字符串处理过程中,仅能够统一地给出同样的各组音节组合的排序,,导致用户在选择需要的音节组合时使用较多的交互动作才能找到欲输入的候选项,无法满足个性化输入需求,输入效率较低的问题。
为了解决上述问题,本发明公开了一种拼音字符串处理方法,包括:
接收拼音字符串的输入,获取当前环境信息;其中,所述当前环境信息为接收所述拼音字符串的当前应用程序和/或输入框的信息;
依据预设的配置信息,获取输入所述拼音字符串的个性化信息;其中,所述个性化信息中包括用户习惯信息和历史环境信息,所述历史环境信息包括用户往期进行汉字输入时所处的环境信息;
依据所述个性化信息和所述当前环境信息对所述拼音字符串对应的至少一组音节组合进行筛选,从而确定所述拼音字符串中分词符的位置。
优选地,所述个性化信息还包括:时间信息和/或位置信息;其中,所述时间信息为所述用户往期进行输入和/或往期进行网络访问时所处的时间;所述位置信息为所述用户往期进行输入和/或往期进行网络访问时所处的地理位置;
所述依据所述个性化信息和所述当前环境信息对所述拼音字符串对应的至少一组音节组合进行筛选时,依据所述用户习惯信息和所述当前环境信息,以及所述当前时间信息和/或所述当前位置信息,对所述拼音字符串对应的至少一组音节组合进行筛选。
优选地,所述依据所述用户习惯信息和所述当前环境的信息对所述拼音字符串对应的至少一组音节组合进行筛选,从而确定所述拼音字符串中分词符的位置的步骤包括:
根据所述拼音字符串对应的各组音节组合与所述用户习惯信息的匹配结果,分别获得每组音节组合对应的习惯权值;
根据所述当前环境信息与所述历史环境信息的匹配结果,分别获得每组音节组合对应的环境权值;
根据所述当前时间信息和/或所述当前位置信息与对应的所述时间信息和/或位置信息的匹配结果,分别获得每组音节组合对应的时间权值和/或地点权值;
对所述各组音节组合对应的各权值进行求和,获得所述各组音节组合的总特征权值,根据所述总特征权值对所述各组音节组合进行排序,并根据排序在前的音节组合确定所述拼音字符串中分词符的位置。
优选地,所述个性化信息从服务器端获取,并通过以下方式生成:
获取所述用户进行网络访问时的历史行为信息;其中,所述历史行为信息中包括:所述用户往期进行输入的内容、时间、地理位置、输入环境,和/或,所述用户往期进行网络访问的内容、时间、地理位置;
分别根据预设的兴趣模型、环境模型、时间模型和位置模型,分别对所述历史行为信息进行分析处理;
根据所述历史行为信息进行分析处理的结果,生成所述服务器端对应的个性化信息。
优选地,所述兴趣模型包括个体兴趣模型和群体兴趣模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310370370.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:体育事件的触感使能的观看
- 下一篇:一种计算机发光键盘