[发明专利]输入法语料注音方法、生成评测语料的方法及电子装置在审
申请号: | 201210486723.8 | 申请日: | 2012-11-26 |
公开(公告)号: | CN102982019A | 公开(公告)日: | 2013-03-20 |
发明(设计)人: | 景富香 | 申请(专利权)人: | 百度国际科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 倪志华 |
地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 输入法 语料 注音 方法 生成 评测 电子 装置 | ||
1.一种语料注音的方法,其特征在于,包括:
利用至少两个不同的注音工具对每个所述语料分别进行注音,以使得每个语料具有相应的至少两个注音;
判断每个所述语料的至少两个注音是否相同,若不同则选择评估结果较优的注音以作为所述语料的正确注音,若相同则直接用所述注音作为语料的正确注音。
2.一种生成输入法评测语料的方法,其特征在于,包括:
将捕获的历史输入内容切分成用户单次录入的至少一个语料;
利用至少两个不同的注音工具对每个所述语料分别进行注音,以使得每个语料具有相应的至少两个注音;
判断每个所述语料的至少两个注音是否相同,若不同则选择评估结果较优的注音以作为所述语料的正确注音,若相同则直接用所述注音作为语料的正确注音,并将所述确定好正确注音的语料作为所述评测语料。
3.根据权利要求2所述的方法,其特征在于,所述将捕获的历史输入内容切分成用户单次录入的语料的步骤包括:
将捕获的历史输入内容按照标点符号为分隔的临界进行第一次切分;
对所述第一次切分后的语料按照文节进行第二次切分,得到所述用户单次录入的语料。
4.根据权利要求3所述的方法,其特征在于,所述对第一次切分后的语料按照文节进行第二次切分的步骤包括:通过juman及knp对第一次切分后的语料按照文节进行第二次切分。
5.根据权利要求2所述的方法,其特征在于,所述将捕获的历史输入内容切分成用户单次录入的语料的步骤之后,利用至少两个不同的注音工具对所述语料进行注音的步骤之前,还包括:
对切分得到的所述用户单次录入的语料进行去噪音处理,以消除其中无意义的语料。
6.根据权利要求5所述的方法,其特征在于,所述对切分得到的用户单次录入的语料进行去噪音处理的步骤包括:利用自定义的噪音规则对切分得到的所述用户单次录入的语料进行去噪音处理。
7.根据权利要求5所述的方法,其特征在于,所述对切分得到的用户单次录入的语料进行去噪音处理的步骤之后,还包括:对所述去噪音处理后的每个所述语料进行频次计算,通过轮盘赌算法进行语料选取。
8.根据权利要求7所述的方法,其特征在于,对去噪音处理后的语料进行频次计算,通过轮盘赌算法进行语料选取的步骤之后,还包括:在选取出来的所述语料中,对于相同的所述语料,只保留其中一个作为所述利用至少两个不同的注音工具进行注音的语料。
9.根据权利要求2所述的方法,其特征在于,所述生成评测语料的步骤之后,还包括:
运行至少一个输入法工具输入所述评测语料以获取相应的候选结果,并收集所述相应的候选结果;
将所述评测语料与所述相应的候选结果保存以得到评测语料集。
10.根据权利要求2所述的方法,其特征在于,所述将捕获的历史输入内容切分成用户单次录入的语料的步骤之前,还包括:捕获网络上预定领域或类型的内容作为历史输入内容。
11.一种电子装置,其特征在于,包括注音模块、判断模块以及注音确定模块,其中:
所述注音模块用于利用至少两个不同的注音工具对每个语料分别进行注音,以使得每个语料具有相应的至少两个注音,并将每个语料相应的所述至少两个注音输出给所述判断模块;
所述判断模块用于判断每个所述语料的至少两个注音是否相同,并将判断结果输出给所述注音确定模块;
所述注音确定模块用于当每个所述语料的至少两个注音相同时,直接用所述注音作为语料的正确注音,当每个所述语料的至少两个注音不同时,选择评估结果较优的注音以作为所述语料的正确注音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度国际科技(深圳)有限公司,未经百度国际科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210486723.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种检测场景变换的方法和系统
- 下一篇:一种拖泵用散热器进油室结构