[发明专利]一种信息分类方法、装置、设备及存储介质在审
申请号: | 202111575284.3 | 申请日: | 2021-12-20 |
公开(公告)号: | CN114385838A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 张水发 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06F16/45 | 分类号: | G06F16/45;G06F16/432 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 李娜 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息 分类 方法 装置 设备 存储 介质 | ||
本公开关于一种信息分类方法、装置、设备及存储介质,该方法包括:获取用户每次搜索操作对应的搜索词及用户对搜索操作的搜索结果的行为数据;根据搜索词及行为数据,构建搜索词与多媒体数据之间的第一二部图以及搜索词与用户账号之间的第二二部图;对第二二部图结构进行特征提取,得到搜索词的初始特征及用户账号的账号特征;基于初始特征,对第一二部图进行特征提取,得到搜索词的更新特征及多媒体数据的数据特征;根据账号特征、更新特征及数据特征,对多媒体数据、用户账号及搜索词进行聚类,得到多个聚簇,作为信息的分类结果。这样,减少了分类所需的先验标记的数量,而且使得多媒体数据和用户账号的信息得到有效的协同和促进。
技术领域
本申请涉及数据分类领域,特别是涉及一种信息分类方法、装置、设备及存储介质。
背景技术
在多媒体数据平台上,每天都会上传大量的多媒体数据,这些多媒体数据中包括一部分有用多媒体数据,有用多媒体数据是指多媒体数据对用户有帮助,如解释如何做蛋炒饭、如何学开车等内容的多媒体数据,生产了比较多有用多媒体数据的用户账号可以称之为有用用户账号。
一些场景下,用户需要在多媒体数据平台上搜索有用多媒体数据或有用用户账号,那么,多媒体数据平台就需要对多媒体数据和用户账号进行分类,识别出其中的有用多媒体数据和有用用户账号。现有技术中,通常采用基于传统的分类方法识别有用多媒体数据和有用用户账号,需要标记大量的多媒体数据与用户账号,并且需要有用多媒体数据分类和有用用户账号分类两个不相关的分类网络。
由于分类网络依靠对大量视频和用户账号的先验标记,不够准确,而且无法让有用多媒体数据和有用用户账号的信息得到有效的协同和促进,因此,现有技术的方案对多媒体数据和用户账号进行分类的效率较低,准确度也难以得到保障,无法满足用户需求。
发明内容
为了解决相关技术中存在的对多媒体数据和用户账号进行分类的效率较低,准确度也难以得到保障,无法满足用户需求的问题,本公开提供了一种信息分类方法、装置、设备及存储介质,本公开的技术方案如下:
根据本公开实施例的第一方面,提供了一种信息分类方法,所述方法包括:
获取搜索词及针对所述搜索词的搜索结果的行为数据,所述搜索结果包括多媒体数据及用户账号;
根据所述搜索词及所述行为数据,构建所述搜索词与所述多媒体数据之间的第一二部图以及所述搜索词与所述用户账号之间的第二二部图;
对所述第二二部图结构进行特征提取,得到所述用户账号的账号特征;
对所述第一二部图进行特征提取,得到所述搜索词的搜索特征及所述多媒体数据的数据特征;
根据所述账号特征、所述搜索特征及所述数据特征,对所述多媒体数据、所述用户账号及所述搜索词进行聚类,得到多个聚簇,每个聚簇中包括至少一个所述多媒体数据、所述搜索词或所述用户账号。
可选地,在所述根据所述账号特征、所述搜索特征及所述数据特征,对所述多媒体数据、所述用户账号及所述搜索词进行聚类,得到多个聚簇之后,所述方法还包括:
将所包括的所述多媒体数据、所述搜索词或所述用户账号满足预设条件的聚簇确定为目标聚簇,所述目标聚簇中的多媒体数据为目标多媒体数据,所述目标聚簇中的用户账号为目标用户账号。
可选地,所述预设条件包括以下任意一项或多项:
所述聚簇内的搜索词均为预设目标搜索词或包含预设字段;
所述聚簇内的预设目标用户账号占所述聚簇内用户账号总数的一半以上;
所述聚簇内的预设目标多媒体数据的数量占所述聚簇内多媒体数据总数的一半以上,或,所述聚簇内的预设目标多媒体数据的数量大于预设数量阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111575284.3/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置