[发明专利]一种文本标注方法及装置在审
| 申请号: | 201910779970.9 | 申请日: | 2019-08-22 |
| 公开(公告)号: | CN110688844A | 公开(公告)日: | 2020-01-14 |
| 发明(设计)人: | 马泽祥;杨潇峰;蔡耀华 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/247;G06F40/169 |
| 代理公司: | 11442 北京博雅睿泉专利代理事务所(特殊普通合伙) | 代理人: | 郭少晶 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 标注 标签 文本 词语 标签添加 点击操作 人员选择 文本标注 词典库 展示 响应 | ||
本说明书实施例公开了一种文本标注方法及装置。其中,该方法包括:在展示待标注文本时,根据词典库,将其他标注人员标注过的、用于待标注文本中的词语的标签作为候选标签在待标注文本中进行展示,以供当前的标注人员选择,并响应于标注人员针对候选标签的点击操作,将候选标签添加为词语的当前标签。
技术领域
本发明涉及自然语言处理技术领域,更具体地,涉及一种文本标注方法及装置。
背景技术
命名实体识别(Named Entity Recognition,NER)是自然语言处理中常见的一项任务,使用的范围非常广。NER文本标注就是识别文本中具有特定意义的词语,主要包括人名、地名、机构名、专有名词等,并对该词语进行标注。
发明内容
本说明书实施例的一个目的是提供一种文本标注的新技术方案。
根据本说明书实施例的第一方面,提供一种文本标注方法,所述方法包括:
在展示待标注文本时,通过分词算法对所述待标注文本进行分词处理;
根据分词结果,将所述待标注文本中的词语与词典库中的词语进行匹配;
从所述词典库中获取与匹配成功的词语对应的标签;
将所获取的所述标签确定为所述词语的候选标签进行展示;
响应于针对所述候选标签的点击操作,将所述候选标签添加为所述词语的当前标签。
可选地,所述方法还包括:
接收针对所述待标注文本中的词语而添加的新标签;
将所述词语及对应的新标签添加至词典库中。
可选地,所述方法还包括:
在所述词典库中对所述词语对应的标签的标记次数进行累计;
其中,所述展示用于所述待标注文本中的词语的候选标签包括:
根据标记次数对标签进行排序;以及
将标记次数最多的预设数量个标签作为所述待标注文本中词语的候选标签进行展示。
可选地,所述方法还包括:
在词典库中合并相同的词语及对应的新标签。
可选地,在展示待标注文本之前,所述方法还包括:
获取文本标注任务,其中所述文本标注任务至少包括待标注文本;以及
将所述标注任务拆分成多个标注子任务,以进行分发,其中每个所述标注子任务中至少包括所述待标注文本的一部分。
可选地,所述将所述标注任务拆分成多个标注子任务包括:
根据指定字段,将所述文本标注任务拆分成不同的所述标注子任务;或者,
将所述文本标注任务拆分为指定数量个标注子任务。
可选地,所述将所述标注任务拆分成多个标注子任务还包括:
通过分词算法对所述待标注文本进行分词处理。
可选地,所述方法还包括:
对于所述待标注文本中与已添加标签的词语相同的词语,自动添加相同的已添加标签。
根据本说明书实施例的第二方面,还提供一种用于文本标注的装置,所述装置包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910779970.9/2.html,转载请声明来源钻瓜专利网。





