[发明专利]一种标注数据的方法及装置在审
申请号: | 202010320672.6 | 申请日: | 2020-04-22 |
公开(公告)号: | CN113535932A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 王涛;蒋勇;黄非;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 任媛;刘铁生 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 标注 数据 方法 装置 | ||
本发明公开了一种标注数据的方法及装置,涉及数据分析技术领域,本发明的主要目的在于对用户查询语句的自动化标注,提高样本数据的产出效率。本发明主要的技术方案为:获取具有标注信息的查询目标数据,所述标注信息包括至少一个中心词;利用文本生成模型处理所述查询目标数据,得到具有所述标注信息的新查询语句,所述文本生成模型是基于查询过程中的行为数据训练得到的。
技术领域
本发明涉及数据分析技术领域,尤其涉及一种标注数据的方法及装置。
背景技术
信息检索是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。信息检索又指信息查询,是用户根据需要,采用一定的方法,借助检索工具,从信息集合中找出所需要信息的查找过程。随着人工智能的兴起与发展,该查找过程可以通过应用人工智能算法的查询模型实现为用户快速、准确地匹配出所需查找的信息,让用户通过更加简便的查询语句就可以匹配出所需信息。然而,查询模型能够实现准确匹配的前提是需要进行大量的模型训练,因此,就需要大量的带有标注的数据样本。
目前,对于数据样本的标注,包括对数据样本中查询语句的标注以及对匹配信息的标注,还主要依靠人工。而对于现有所能够采集到的用户查询语句的数据量,要实现将其转换为样本数据,所需要的人工成本将非常高。并且这些通过人工标注的样本数据,由于其具有较强的应用场景,其应用的成本也会非常高,即,当需要对一个新应用场景训练查询模型时,还需要人工生产针对该场景的样本数据,以确保查询模型在该场景中的查询准确性,可见,现有基于人工标注查询语句的方式存在成本高、效率低的问题。
发明内容
鉴于上述问题,本发明提出了一种标注数据的方法及装置,主要目的在于对用户查询语句的自动化标注,提高样本数据的产出效率。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明提供一种标注数据的方法,具体包括:
获取具有标注信息的查询目标数据,所述标注信息包括至少一个中心词;
利用文本生成模型处理所述查询目标数据,得到具有所述标注信息的新查询语句,所述文本生成模型是基于查询过程中的行为数据训练得到的。
优选的,所述方法还包括:
获取用户在查询过程中的行为数据,所述行为数据包括用户输入的查询语句以及用户选中的查询目标数据;
利用所述行为数据训练所述文本生成模型,其中,所述文本生成模型的输入为查询目标数据,输出为查询语句。
优选的,所述利用所述行为数据训练所述文本生成模型,包括:
获取所述行为数据包括所述查询语句与选中的查询目标数据构成的数据对,其中,所述查询目标数据中携带由所述标注信息;
利用所述数据对训练所述文本生成模型,所述文本生成模型为序列到序列模型。
优选的,所述方法还包括:
设置所述文本生成模型的配置参数,所述配置参数用于控制所述文本生成模型输出具有标注信息的查询语句的数量。
优选的,所述方法还包括:
如果所述查询目标数据中的中心词为多个,且所述配置参数设置的数量为多个,所述文本生成模型得到的每个查询语句中至少含有所述中心词中的一个。
优选的,所述方法还包括:
利用所述新查询语句训练中心词模型,所述中心词模型用于对用户输入的查询语句标注中心词,输出所述查询语句的标注信息。
另一方面,本发明提供一种标注数据的装置,具体包括:
获取单元,用于获取具有标注信息的查询目标数据,所述标注信息包括至少一个中心词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010320672.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置