[发明专利]一种文本标注方法及装置在审
| 申请号: | 201910779970.9 | 申请日: | 2019-08-22 |
| 公开(公告)号: | CN110688844A | 公开(公告)日: | 2020-01-14 |
| 发明(设计)人: | 马泽祥;杨潇峰;蔡耀华 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/247;G06F40/169 |
| 代理公司: | 11442 北京博雅睿泉专利代理事务所(特殊普通合伙) | 代理人: | 郭少晶 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 标注 标签 文本 词语 标签添加 点击操作 人员选择 文本标注 词典库 展示 响应 | ||
1.一种文本标注方法,其特征在于,所述方法包括:
在展示待标注文本时,通过分词算法对所述待标注文本进行分词处理;
根据分词结果,将所述待标注文本中的词语与词典库中的词语进行匹配;
从所述词典库中获取与匹配成功的词语对应的标签;
将所获取的所述标签确定为所述词语的候选标签进行展示;
响应于针对所述候选标签的点击操作,将所述候选标签添加为所述词语的当前标签。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收针对所述待标注文本中的词语而添加的新标签;
将所述词语及对应的新标签添加至词典库中。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在所述词典库中对所述词语对应的标签的标记次数进行累计;
其中,所述展示用于所述待标注文本中的词语的候选标签包括:
根据标记次数对标签进行排序;以及
将标记次数最多的预设数量个标签作为所述待标注文本中词语的候选标签进行展示。
4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:
在所述词典库中合并相同的词语及对应的新标签。
5.根据权利要求1所述的方法,其特征在于,在展示待标注文本之前,所述方法还包括:
获取文本标注任务,其中所述文本标注任务至少包括待标注文本;以及
将所述文本标注任务拆分成多个标注子任务,以进行分发,其中每个所述标注子任务中至少包括所述待标注文本的一部分。
6.根据权利要求5所述的方法,其特征在于,所述将所述标注任务拆分成多个标注子任务包括:
根据指定字段,将所述文本标注任务拆分成不同的所述标注子任务;或者,
将所述文本标注任务拆分为指定数量个标注子任务。
7.根据权利要求5所述的方法,其特征在于,所述将所述文本标注任务拆分成多个标注子任务还包括:
通过分词算法对所述待标注文本进行分词处理。
8.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对于所述待标注文本中与已添加标签的词语相同的词语,自动添加相同的已添加标签。
9.一种用于文本标注的装置,其特征在于,所述装置包括:
展示模块,用于在展示待标注文本时,通过分词算法对所述待标注文本进行分词处理;根据分词结果,将所述待标注文本中的词语与词典库中的词语进行匹配;从所述词典库中获取与匹配成功的词语对应的标签;将所获取的所述标签确定为所述词语的候选标签进行展示;
添加模块,用于响应于针对所述候选标签的点击操作,将所述候选标签添加为所述词语的当前标签。
10.一种用于文本标注的装置,其特征在于,包括:存储器和处理器;所述存储器用于存储指令,所述指令用于控制所述处理器进行操作,以执行如权利要求1-8中任意一项所述的文本标注方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910779970.9/1.html,转载请声明来源钻瓜专利网。





