[发明专利]一种语料库众包对齐的交互系统在审
申请号: | 201711416123.3 | 申请日: | 2017-12-25 |
公开(公告)号: | CN108009138A | 公开(公告)日: | 2018-05-08 |
发明(设计)人: | 梁镇爽 | 申请(专利权)人: | 中译语通科技(青岛)有限公司 |
主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266000 山东省青岛市高新区*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语料库 对齐 交互 系统 | ||
1.一种语料库众包对齐的交互方法,其特征在于,包括以下步骤,
(1)确定语种方向和任务数量;
(2)系统从语料库中随机抽取第一任务,将第一任务分发给第一客户端;
(3)第一客户端对第一任务进行处理,并将处理结果反馈给系统;
(4)如果审校结果为语料不对齐,将该语料送入纠错库中,并生成第二任务,如果审校结果为语料对齐,则将该语料进行步骤(6);
(5)系统从纠错库中抽取第二任务,并将第二任务发送给第二客户端;
(6)第二客户端对第二任务进行处理;并将处理结果反馈给系统;
(7)系统将经过第二任务处理后的语料送入语料储存数据库中,并生成第三任务;
(8)系统从语料储存数据库中随机抽取第三任务发送给第三客户端;
(9)第三客户端对第三任务进行处理,并将处理结果反馈给系统;
(10)系统将第三任务处理成功的语料存入最终数据库中,将第三任务处理失败的语料回发至纠错库,并回到第二任务。
2.根据权利要求1所述的一种语料库众包对齐的交互方法,其特征在于,第一任务是指将语料库中不同语种的信息进行对齐。
3.根据权利要求1所述的一种语料库众包对齐的交互方法,其特征在于,第二任务是指将纠错库中不同语种的信息进行对齐。
4.根据权利要求1所述的一种语料库众包对齐的交互方法,其特征在于,第三任务是指从预料存储数据库中抽取不同语种的信息进行对齐校对。
5.根据权利要求4所述的一种语料库众包对齐的交互方法,其特征在于,经过第三任务处理过的语料在纠错库中被添加第一优先级标记。
6.根据权利要求5所述的一种语料库众包对齐的交互方法,其特征在于,所述第三任务的抽取概率为1:80~1:160。
7.根据权利要求1所述的一种语料库众包对齐的交互方法,其特征在于,所述方法还包括对最终数据库中的语料进行标记的步骤,对同一含义的语料按不同语种进行标记,对同一语种的语料按不同含义进行标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技(青岛)有限公司,未经中译语通科技(青岛)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711416123.3/1.html,转载请声明来源钻瓜专利网。