[发明专利]输入法语料注音方法、生成评测语料的方法及电子装置在审
申请号: | 201210486723.8 | 申请日: | 2012-11-26 |
公开(公告)号: | CN102982019A | 公开(公告)日: | 2013-03-20 |
发明(设计)人: | 景富香 | 申请(专利权)人: | 百度国际科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 倪志华 |
地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 输入法 语料 注音 方法 生成 评测 电子 装置 | ||
本发明公开了一种输入法语料注音的方法、生成评测语料的方法及电子装置。其中,语料注音的方法包括:利用至少两个不同的注音工具对每个语料分别进行注音,以使得每个语料具有相应的至少两个注音;判断每个语料的至少两个注音是否相同,若不同则选择评估结果较优的注音以作为语料的正确注音,若相同则直接用注音作为语料的正确注音。通过上述方式,本发明能够极大的减少需要人工校验语料正确注音的工作量,提高语料注音的效率同时也提高语料注音的正确率。
技术领域
本发明涉及输入法技术领域,特别是涉及输入法语料注音方法、生成评测语料的方法及电子装置。
背景技术
输入法是指为了将各种符号输入计算机或其他设备(如手机)而采用的编码方法。输入法的性能将直接影响在计算机或其他设备上的输入效率。因此,需要对输入法性能进行评测以为不断完善输入法提供依据。
输入法的评测是通过在评测语料上进行录入、选词等操作,并在过程中记录理想候选结果的位置及得到理想候选结果的编辑次数,最后统计在多个录入、选词过程中理想候选结果位置的分布和得到理想候选结果的编辑次数的平均值来反映输入法的易用性。可见,评测语料是输入法评测的前提,因此,如何找到客观、实用且正确的评测语料对输入法的评测有着重要意义。
一般收集评测语料有手工收集和自动化方法收集。目前,采用手工收集评测语料的效率低,而一般的自动化方法生成的评测语料至少存在如下问题:切词机制不合理,导致损失大部分用户实际输入的语料,使得获取的语料不恰当,影响输入法的评测结果;没有成熟的注音工具对语料进行准确的注音。
发明内容
本发明主要解决的技术问题是提供输入法语料注音方法、生成评测语料的方法及电子装置,能够提高评测语料的生成效率,同时生成的评测语料与用户实际录入较接近,延续性好,评测语料的注音正确率高。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种语料注音的方法,包括:利用至少两个不同的注音工具对每个所述语料分别进行注音,以使得每个语料具有相应的至少两个注音;判断每个所述语料的至少两个注音是否相同,若不同则选择评估结果较优的注音以作为所述语料的正确注音,若相同则直接用所述注音作为语料的正确注音。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种生成输入法评测语料的方法,包括:将捕获的历史输入内容切分成用户单次录入的至少一个语料;利用至少两个不同的注音工具对每个所述语料分别进行注音,以使得每个语料具有相应的至少两个注音;判断每个所述语料的至少两个注音是否相同,若不同则选择评估结果较优的注音以作为所述语料的正确注音,若相同则直接用所述注音作为语料的正确注音,并将所述确定好正确注音的语料作为所述评测语料。
其中,所述将捕获的历史输入内容切分成用户单次录入的语料的步骤包括:将捕获的历史输入内容按照标点符号为分隔的临界进行第一次切分;对所述第一次切分后的语料按照文节进行第二次切分,得到所述用户单次录入的语料。
其中,所述对第一次切分后的语料按照文节进行第二次切分的步骤包括:通过juman及knp对第一次切分后的语料按照文节进行第二次切分。
其中,所述将捕获的历史输入内容切分成用户单次录入的语料的步骤之后,利用至少两个不同的注音工具对所述语料进行注音的步骤之前,还包括:对切分得到的所述用户单次录入的语料进行去噪音处理,以消除其中无意义的语料。
其中,所述对切分得到的用户单次录入的语料进行去噪音处理的步骤包括:利用自定义的噪音规则对切分得到的所述用户单次录入的语料进行去噪音处理。
其中,所述对切分得到的用户单次录入的语料进行去噪音处理的步骤之后,还包括:对所述去噪音处理后的每个所述语料进行频次计算,通过轮盘赌算法进行语料选取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度国际科技(深圳)有限公司,未经百度国际科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210486723.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种检测场景变换的方法和系统
- 下一篇:一种拖泵用散热器进油室结构