[发明专利]一种语料库众包对齐的交互系统在审
申请号: | 201711416123.3 | 申请日: | 2017-12-25 |
公开(公告)号: | CN108009138A | 公开(公告)日: | 2018-05-08 |
发明(设计)人: | 梁镇爽 | 申请(专利权)人: | 中译语通科技(青岛)有限公司 |
主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266000 山东省青岛市高新区*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语料库 对齐 交互 系统 | ||
一种语料库众包对齐的交互方法,包括确定语种方向和任务数量,系统从语料库中随机抽取第一任务发给第一客户端,第一客户端对第一任务进行处理,并将处理结果反馈给系统,将不对齐语料送入纠错库中,并生成第二任务,系统从纠错并抽取第二任务发送给第二客户端,第二客户端对第二任务进行处理,并将处理结果反馈给系统,将处理后的语料送入语料储存数据库中,并生成第三任务,第三客户端对第三任务进行处理,系统将第三任务处理成功的语料存入最终数据库中,将处理失败的语料回发至纠错库,并回到第二任务,通过这种方法可以节省人工,能够由机器代替断句、对齐的环节,人工只需要负责对齐后的审校工作即可。
技术领域
本发明涉及一种语料库众包对齐的交互系统。
背景技术
语料库是自然语言处理和机器翻译领域最重要的基础研究资源。其中,双语平行语料库尤为珍贵。目前国内外尚无大规模建设双语平行语料库的先例,主要是因为双语平行语料库的获取难度颇高。双语平行语料库的来源主要有互联网和传统翻译公司的积累。
通过互联网采集到的语料,篇章级的双语语料数量占较多的比重。因此,还需要对篇章级语料进行对齐和断句处理,使其成为一句对的标准平行语料,才能应用到业务研究中去。
以往的对齐方式为采用众包模式纯人工处理,而本专利则在机器处理的基础上,仅采用人工进行校对审核,这样极大的减少了人。
发明内容
针对以上问题,本发明提供一种语料库众包对齐的交互系统,所需采用的技术方案是,
一种语料库众包对齐的交互系统,其特征在于,包括以下步骤,
(1)确定语种方向和任务数量;
(2)系统从语料库中随机抽取第一任务,将第一任务分发给第一客户端;
(3)第一客户端对第一任务进行处理,并将处理结果反馈给系统;
(4)如果审校结果为语料不对齐,将该语料送入纠错库中,并生成第二任务,如果审校结果为语料对齐,则将该语料进行步骤(6);
(5)系统从纠错库中抽取第二任务,并将第二任务发送给第二客户端;
(6)第二客户端对第二任务进行处理;并将处理结果反馈给系统;
(7)系统将经过第二任务处理后的语料送入语料储存数据库中,并生成第三任务;
(8)系统从语料储存数据库中随机抽取第三任务发送给第三客户端;
(9)第三客户端对第三任务进行处理,并将处理结果反馈给系统;
(10)系统将第三任务处理成功的语料存入最终数据库中,将第三任务处理失败的语料回发至纠错库,并回到第二任务。
在上采用以上技术方案的同时,本发明还需采用进一步的技术方案,
第一任务是指将语料库中不同语种的信息进行对齐。
第二任务是指将纠错库中不同语种的信息进行对齐。
第三任务是指从预料存储数据库中抽取不同语种的信息进行对齐校对。
经过第三任务处理过的语料在纠错库中被添加第一优先级标记。
所述第三任务的抽取概率为1:80~1:160。
所述方法还包括对最终数据库中的语料进行标记的步骤,对同一含义的语料按不同语种进行标记,对同一语种的语料按不同含义进行标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技(青岛)有限公司,未经中译语通科技(青岛)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711416123.3/2.html,转载请声明来源钻瓜专利网。