[发明专利]一种信息分类方法、装置、设备及存储介质在审

专利信息
申请号: 202111575284.3 申请日: 2021-12-20
公开(公告)号: CN114385838A 公开(公告)日: 2022-04-22
发明(设计)人: 张水发 申请(专利权)人: 北京达佳互联信息技术有限公司
主分类号: G06F16/45 分类号: G06F16/45;G06F16/432
代理公司: 北京润泽恒知识产权代理有限公司 11319 代理人: 李娜
地址: 100085 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 信息 分类 方法 装置 设备 存储 介质
【说明书】:

本公开关于一种信息分类方法、装置、设备及存储介质,该方法包括:获取用户每次搜索操作对应的搜索词及用户对搜索操作的搜索结果的行为数据;根据搜索词及行为数据,构建搜索词与多媒体数据之间的第一二部图以及搜索词与用户账号之间的第二二部图;对第二二部图结构进行特征提取,得到搜索词的初始特征及用户账号的账号特征;基于初始特征,对第一二部图进行特征提取,得到搜索词的更新特征及多媒体数据的数据特征;根据账号特征、更新特征及数据特征,对多媒体数据、用户账号及搜索词进行聚类,得到多个聚簇,作为信息的分类结果。这样,减少了分类所需的先验标记的数量,而且使得多媒体数据和用户账号的信息得到有效的协同和促进。

技术领域

本申请涉及数据分类领域,特别是涉及一种信息分类方法、装置、设备及存储介质。

背景技术

在多媒体数据平台上,每天都会上传大量的多媒体数据,这些多媒体数据中包括一部分有用多媒体数据,有用多媒体数据是指多媒体数据对用户有帮助,如解释如何做蛋炒饭、如何学开车等内容的多媒体数据,生产了比较多有用多媒体数据的用户账号可以称之为有用用户账号。

一些场景下,用户需要在多媒体数据平台上搜索有用多媒体数据或有用用户账号,那么,多媒体数据平台就需要对多媒体数据和用户账号进行分类,识别出其中的有用多媒体数据和有用用户账号。现有技术中,通常采用基于传统的分类方法识别有用多媒体数据和有用用户账号,需要标记大量的多媒体数据与用户账号,并且需要有用多媒体数据分类和有用用户账号分类两个不相关的分类网络。

由于分类网络依靠对大量视频和用户账号的先验标记,不够准确,而且无法让有用多媒体数据和有用用户账号的信息得到有效的协同和促进,因此,现有技术的方案对多媒体数据和用户账号进行分类的效率较低,准确度也难以得到保障,无法满足用户需求。

发明内容

为了解决相关技术中存在的对多媒体数据和用户账号进行分类的效率较低,准确度也难以得到保障,无法满足用户需求的问题,本公开提供了一种信息分类方法、装置、设备及存储介质,本公开的技术方案如下:

根据本公开实施例的第一方面,提供了一种信息分类方法,所述方法包括:

获取搜索词及针对所述搜索词的搜索结果的行为数据,所述搜索结果包括多媒体数据及用户账号;

根据所述搜索词及所述行为数据,构建所述搜索词与所述多媒体数据之间的第一二部图以及所述搜索词与所述用户账号之间的第二二部图;

对所述第二二部图结构进行特征提取,得到所述用户账号的账号特征;

对所述第一二部图进行特征提取,得到所述搜索词的搜索特征及所述多媒体数据的数据特征;

根据所述账号特征、所述搜索特征及所述数据特征,对所述多媒体数据、所述用户账号及所述搜索词进行聚类,得到多个聚簇,每个聚簇中包括至少一个所述多媒体数据、所述搜索词或所述用户账号。

可选地,在所述根据所述账号特征、所述搜索特征及所述数据特征,对所述多媒体数据、所述用户账号及所述搜索词进行聚类,得到多个聚簇之后,所述方法还包括:

将所包括的所述多媒体数据、所述搜索词或所述用户账号满足预设条件的聚簇确定为目标聚簇,所述目标聚簇中的多媒体数据为目标多媒体数据,所述目标聚簇中的用户账号为目标用户账号。

可选地,所述预设条件包括以下任意一项或多项:

所述聚簇内的搜索词均为预设目标搜索词或包含预设字段;

所述聚簇内的预设目标用户账号占所述聚簇内用户账号总数的一半以上;

所述聚簇内的预设目标多媒体数据的数量占所述聚簇内多媒体数据总数的一半以上,或,所述聚簇内的预设目标多媒体数据的数量大于预设数量阈值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111575284.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top