[发明专利]一种文本标注方法和装置在审
| 申请号: | 202110767693.7 | 申请日: | 2021-07-07 |
| 公开(公告)号: | CN113486636A | 公开(公告)日: | 2021-10-08 |
| 发明(设计)人: | 李林芸;郑邦东;熊博颖;吴昀蓁 | 申请(专利权)人: | 建信金融科技有限责任公司 |
| 主分类号: | G06F40/169 | 分类号: | G06F40/169;G06F16/957 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;王安娜 |
| 地址: | 200120 上海市自由*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 标注 方法 装置 | ||
本发明公开了一种文本标注方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:创建标注任务;从服务端获取所述标注任务对应的原始文本,并通过浏览器渲染所述原始文本;响应标注用户对所述原始文本的标注指令,生成所述原始文本对应的标注结果数据;其中,所述标注结果数据为JSON格式;将所述标注结果数据上传至所述服务端。该实施方式能够解决标注结果数据通用性差和维护成本高的技术问题。
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本标注方法和装置。
背景技术
在人工智能时代,自然语言处理(NLP)技术在各领域的应用越来越广泛,诸如Apple的Siri、Microsoft Cortana、Google翻译、支付宝的智能客服等都是基于NLP技术的应用。在将NLP技术应用于实际场景时,存在两个必要条件:一是算法,二是数据。虽然算法一直在改进,但对数据的需求却从未改变,不论是传统的机器学习算法还是新生代的深度学习算法,都需要大量的标注数据进行训练和学习。标注数据的质量和数量直接决定了某个语言处理任务是否标准,而文本数据的标注是一个十分繁琐和复杂的过程,其中涉及诸如标注质量、标注管理、标注效率等诸多问题。文本标注是一个费时费力的工作,所以开发一个文本标注工具是非常必要的。
为了提供文本标注能力,目前互联网上拥有一些文本标注工具,例如精灵标注助手、Poplar等,但这些工具大多为客户端软件,安装复杂,平台兼容性问题突出,不支持多人协作,且最终的标注结果数据输出格式通用性差,输出数据一般以离线文件保存,缺乏管理、维护成本高。
发明内容
有鉴于此,本发明实施例提供一种文本标注方法和装置,以解决标注结果数据通用性差和维护成本高的技术问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种文本标注方法,包括:
创建标注任务;
从服务端获取所述标注任务对应的原始文本,并通过浏览器渲染所述原始文本;
响应标注用户对所述原始文本的标注指令,生成所述原始文本对应的标注结果数据;其中,所述标注结果数据为JSON格式;
将所述标注结果数据上传至所述服务端。
可选地,所述标注任务包括任务ID、标注用户、标注对象和标注要素。
可选地,响应标注用户对所述原始文本的标注指令,生成所述原始文本对应的标注结果数据,包括:
响应标注用户对所述原始文本的标注指令,通过Javascript中提供的方法,生成所述原始文本对应的标注结果数据。
可选地,所述Javascript中提供的方法包括document方法和window方法。
可选地,将所述标注结果数据上传至所述服务端之后,还包括:
从所述服务端获取所述标注结果数据;
修改所述标注结果数据,并将修改后的所述标注结果数据上传至所述服务端,以更新所述服务端存储的标注结果数据。
可选地,将所述标注结果数据上传至所述服务端之后,还包括:
从所述服务端获取所述标注结果数据;
采用Javascript将所述标注结果数据渲染生成HTML,并显示在浏览器上。
可选地,所述标注结果数据包括标注对象、标注要素、标注内容的起始位置和终止位置。
另外,根据本发明实施例的另一个方面,提供了一种文本标注装置,包括:
创建模块,用于创建标注任务;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于建信金融科技有限责任公司,未经建信金融科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110767693.7/2.html,转载请声明来源钻瓜专利网。





