[发明专利]一种标签切换方法和装置、计算机可读存储介质有效
申请号: | 201810682420.0 | 申请日: | 2018-06-27 |
公开(公告)号: | CN108959251B | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 徐安华;丁肇同 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F16/36;G06F16/35 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 解婷婷;栗若木 |
地址: | 102218 北京市昌平区东小*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 标签 切换 方法 装置 计算机 可读 存储 介质 | ||
本申请公开了一种标签切换方法和装置、计算机可读存储介质,所述方法包括:统计当前标注过的所有标签的总数及使用每种标签类型标注的概率;根据最近标注的k个标签的类型及当前每种标签类型标注的概率,预测下一个要标注的实体最大概率使用的标签类型,其中,k为大于或等于0的整数;当下一个实体被标注时,将标签类型自动切换为所述预测的最大概率使用的标签类型。本申请通过根据最近标注的k个标签的类型,预测下一个要标注的实体最大概率使用的标签类型,大大提高了标签标注的效率。
技术领域
本发明涉及自然语言处理(Natural Language Processing,NLP)技术领域,尤其涉及一种标签切换方法和装置、计算机可读存储介质。
背景技术
随着大数据以及人工智能(Artificial Intelligence,AI)的普及,企业级应用中将越来越多使用自然语言处理相关的技术。当前,虽然很多大公司提供词性识别、实体识别、关系识别等模型的超文本传输协议(Hyper Text Transfer Protocol,HTTP)服务,但这些服务背后的自然语言处理模型绝大多数都是由互联网数据训练得到的。而互联网中的文字内容来源广泛:既有来自于专业媒体的内容,也有网民个人产生的内容。互联网文本跟企业内部文本内容相比,用词与写作风格存在较大差异。因此,自然语言处理技术想要在企业级应用中达到较好的效果,一般需要将企业内文本做标注之后,重新训练成适合于企业自身需要的自然语言处理模型。
对于NLP中比较重要的任务:如词性识别、实体识别等都需要使用企业中的文本数据进行标注、然后训练模型。在词性识别、实体识别过程中,往往会使用很多标签(不同的词性或者不同的实体类型在这里都叫做标签)对文本进行标注。对文本进行此类标注的过程中,往往每标注一段文本就需要切换一次标签。如图1所示,在一段文本的实体标注任务中,标签呈现的顺序为:日期(Date),公司(Company),动物(Animal),Animal,姓名(Name),Name,地点(Loc),Name,Name,Name,Loc,Animal,Loc,Animal,Name,Animal,Animal,Animal,Name,Name,Name,Name,Name。那么在顺序标注以上实体的过程中,将会涉及到一共13次的标签切换。在具有多个标签的标注任务中,切换标签带来了非常大的工作负担。
发明内容
为了解决上述技术问题,本发明提供了一种标签切换方法和装置、计算机可读存储介质,能够提高标注效率。
为了解决上述技术问题,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种标签切换方法,包括:
统计当前标注过的所有标签的总数及使用每种标签类型标注的概率;
根据最近标注的k个标签的类型及当前每种标签类型标注的概率,预测下一个要标注的实体最大概率使用的标签类型,其中,k为大于或等于0的整数;
当下一个实体被标注时,将标签类型自动切换为所述预测的最大概率使用的标签类型。
进一步地,所述根据最近标注的k个标签的类型及当前每种标签类型标注的概率,预测下一个要标注的实体最大概率使用的标签类型,包括:
当k=0时,选择所述当前标注过的所有标签中,使用次数最多的标签类型为所述预测的下一个要标注的实体最大概率使用的标签类型;
当k0时,使用Ti表示第i个标签的类型,i为1至k+1之间的自然数,P(Ti)表示当前标注过的所有标签中,使用Ti标签标注的概率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810682420.0/2.html,转载请声明来源钻瓜专利网。