[发明专利]语料标注装置和方法有效
申请号: | 201711054264.5 | 申请日: | 2017-11-01 |
公开(公告)号: | CN109753976B | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 赵嵩;高芷乔 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 许蓓 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 标注 装置 方法 | ||
本公开公开了一种语料标注装置和方法,涉及自然语言处理技术领域。其中的语料标注方法包括:用机器标注算法对语料进行自动标注,输出N个备选标签;通过人工标注接口从N个备选标签中挑选出正确的标签。本公开将语料自动标注输出的备选标签集合作为人工标注的优选标签集合,可以兼顾语料的标注效率及准确率。
技术领域
本公开涉及自然语言处理技术领域,特别涉及一种语料标注装置和方法。
背景技术
随着互联网和移动终端的普及应用,各种形式的语料如洪水般涌来,在自然语言处理、机器翻译、计算机辅助学习等多个领域需要对语料进行标注。
传统的语料标注方法,一般由专职标注人员对语料进行标注,但是大型语料库中需要标注的语料众多,人工进行语料标注效率较低。为了提高语料标注效率,目前常采用标注服务器对语料进行自动标注,这种自动标注的方法标注效率较高,但是标注准确率较低。
如何兼顾语料的标注效率及准确率是当前需要解决的问题。
发明内容
本公开实施例所要解决的一个技术问题是:如何能够兼顾语料的标注效率及准确率。
根据本公开的一个方面,提出一种语料标注装置,包括:
自动标注单元,被配置为用机器标注算法对语料进行自动标注,输出N个备选标签;
人工标注单元,被配置为提供人工标注接口,所述人工标注接口提供从N个备选标签中挑选标签的选择功能,以允许用户从N个备选标签中挑选出正确的标签。
可选地,所述人工标注接口还提供从M个标签全集中挑选标签的选择功能,以允许用户从M个标签全集中挑选出正确的标签,N<M。
可选地,所述人工标注接口提供的从M个标签全集中挑选标签的选择功能在从N个备选标签中未挑选出正确的标签时启用。
可选地,语料标注装置还包括:调节单元,被配置为调节N的值,使得机器标注算法输出的N个备选标签包含正确标签的概率与人工标注的正确率之间的差距小于预设门限。
可选地,所述调节单元,被配置为当机器标注算法输出的N个备选标签包含正确标签的概率与人工标注的正确率之间的差距不小于预设门限时,通过增大N的值,使得机器标注算法输出的N个备选标签包含正确标签的概率与人工标注的正确率之间的差距小于预设门限。
根据本公开的再一个方面,提出一种语料标注方法,包括:
用机器标注算法对语料进行自动标注,输出N个备选标签;
通过人工标注接口从N个备选标签中挑选出正确的标签。
可选地,该方法还包括:若从N个备选标签中未挑选出正确的标签,通过人工标注接口从M个标签全集中挑选出正确的标签,N<M。
可选地,该方法还包括:调节N的值,使得机器标注算法输出的N个备选标签包含正确标签的概率与人工标注的正确率之间的差距小于预设门限。
根据本公开的另一方面,提出一种语料标注装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行前述的语料标注方法。
根据本公开的又一方面,提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述的语料标注方法的步骤。
本公开将语料自动标注输出的备选标签集合作为人工标注的优选标签集合,可以兼顾语料的标注效率及准确率。
附图说明
下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述,可以更加清楚地理解本公开,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711054264.5/2.html,转载请声明来源钻瓜专利网。