[发明专利]一种对目标对象进行标签标注的方法、装置和存储介质有效
申请号: | 201911318624.7 | 申请日: | 2019-12-19 |
公开(公告)号: | CN113011182B | 公开(公告)日: | 2023-10-03 |
发明(设计)人: | 董东;樊富春;褚雷;李江;韩哲;杜菁菁;李邵男;任冠英 | 申请(专利权)人: | 北京多点在线科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F16/33;G06Q30/02 |
代理公司: | 北京万思博知识产权代理有限公司 11694 | 代理人: | 刘冀 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 目标 对象 进行 标签 标注 方法 装置 存储 介质 | ||
本申请公开了一种对目标对象进行标签标注的方法、装置和存储介质,其中方法包括:获取与所述目标对象关联的语料信息,从所述语料信息中确定与所述目标对象对应的第一词语集合,其中所述第一词语集合包括与所述目标对象对应的多个高频词语,所述高频词语为通过已构建的词频统计模型得到的所述语料信息中大于第一预设统计次数的词语,根据所述多个高频词语生成与所述目标对象对应的第一词组对集合,其中所述第一词组对集合包括根据所述多个高频词语生成的词组对,根据所述第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与所述目标对象对应的标签。通过本实施例可以提高标签标注的的准确率。
技术领域
本申请涉及互联网领域,特别是涉及一种对目标对象进行标签标注的方法、装置和存储介质。
背景技术
随着互联网技术的快速发展,对互联网数据进行标签标注的需求越来越高,尤其针对互联网营销平台的各种数据进行标签标注,准确率高的标签标注对应互联网营销起着非常重要的作用。目前对于标签标注的技术,一般先使用分词算法对数据内容集合进行分词处理,然后将其中出现频率较高的词语或者指定的词语提取出来作为标签,这种基于分词算法提取出来的标签容易提取出无意义的标签,导致标签标注的的准确率不高。
本公开的实施例提供了一种对目标对象进行标签标注的方法、装置和存储介质,以提高标签标注的的准确率。
发明内容
本公开的实施例提供了一种对目标对象进行标签标注的方法、装置和存储介质,可以提高标签标注的的准确率。
为解决上述技术问题,本发明实施例是这样实现的:
第一方面,本公开实施例提供了一种对目标对象进行标签标注的方法,包括:
获取与所述目标对象关联的语料信息;
从所述语料信息中确定与所述目标对象对应的第一词语集合,其中所述第一词语集合包括与所述目标对象对应的多个高频词语,所述高频词语为通过已构建的词频统计模型得到的所述语料信息中大于第一预设统计次数的词语;
根据所述多个高频词语生成与所述目标对象对应的第一词组对集合,其中所述第一词组对集合包括根据所述多个高频词语生成的词组对;
根据所述第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与所述目标对象对应的标签。
第二方面,本公开实施例还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行如上述第一方面所述的对目标对象进行标签标注的方法。
第三方面,根据本公开实施例还提供了一种对目标对象进行标签标注的装置,包括:
语料信息获取模块,用于获取与所述目标对象关联的语料信息;
词语集合确定模块,用于从所述语料信息中确定与所述目标对象对应的第一词语集合,其中所述第一词语集合包括与所述目标对象对应的多个高频词语,所述高频词语为通过已构建的词频统计模型得到的所述语料信息中大于第一预设统计次数的词语;
词组对集合生成模块,用于根据所述多个高频词语生成与所述目标对象对应的第一词组对集合,其中所述第一词组对集合包括根据所述多个高频词语生成的词组对;
目标标签确认模块,用于根据所述第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与所述目标对象对应的标签。
第四方面,本公开实施例还提供了一种对目标对象进行标签标注的装置,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
获取与所述目标对象关联的语料信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京多点在线科技有限公司,未经北京多点在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911318624.7/2.html,转载请声明来源钻瓜专利网。