[发明专利]多媒体资源的处理方法、装置、电子设备及存储介质在审
| 申请号: | 202010847843.0 | 申请日: | 2020-08-21 |
| 公开(公告)号: | CN112000817A | 公开(公告)日: | 2020-11-27 |
| 发明(设计)人: | 张志伟;杨帆 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
| 主分类号: | G06F16/43 | 分类号: | G06F16/43;G06F16/48;G06K9/62 |
| 代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 仝丽 |
| 地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 多媒体 资源 处理 方法 装置 电子设备 存储 介质 | ||
1.一种多媒体资源的处理方法,其特征在于,包括:
获取多媒体资源对应的词组合,所述词组合包括若干个词语;
获取各所述词语的预测概率和各所述词语的信息域特征;其中,所述预测概率为对所述多媒体资源进行识别得到各所述词语的概率,所述信息域特征用于表征词语的来源途径;
针对每个所述词语,将对应的所述预测概率和对应的所述信息域特征进行合并,得到各所述词语的融合特征;
根据所述各所述词语的融合特征,对各所述词语的词权重进行预估,并按照预估的词权重大小对各所述词语进行排序,得到排序后的词组合。
2.根据权利要求1所述的多媒体资源的处理方法,其特征在于,所述多媒体资源对应的词组合的生成方式,包括:
获取所述多媒体资源对应的文本信息,所述文本信息的格式包括文档格式和标签格式;
对文档格式的文本信息进行分词处理,得到所述文档格式的文本信息对应的词语;
根据所述文档格式的文本信息对应的词语和标签格式的文本信息,生成所述多媒体资源对应的词组合。
3.根据权利要求2所述的多媒体资源的处理方法,其特征在于,所述根据所述文档格式的文本信息对应的词组合和标签格式的文本信息,生成所述多媒体资源对应的词组合,包括:
对所述文档格式的文本信息对应的词语和所述标签格式的文本信息进行融合和去重处理,得到所述多媒体资源对应的词组合。
4.根据权利要求1所述的多媒体资源的处理方法,其特征在于,所述获取各所述词语的预测概率和各所述词语的信息域特征,包括:
对各所述多媒体资源进行词语识别,得到从所述多媒体资源中识别出各所述词语的预测概率;
对各所述词语的来源途径对应的信息域进行数值表示,得到各所述词语的信息域特征。
5.根据权利要求1至4任一项所述的多媒体资源的处理方法,其特征在于,所述根据所述各所述词语的融合特征,对各所述词语的词权重进行预估,并按照预估的词权重大小对各所述词语进行排序,得到排序后的词组合,包括:
将各所述词语的融合特征输入至排序学习模型,通过所述排序学习模型对各所述词语的融合特征进行分数预估,并按照预估的分数对各所述词语进行排序,得到所述排序后的词组合,其中,所述预估的分数用于表征所述词权重大小。
6.根据权利要求5所述的多媒体资源的处理方法,其特征在于,所述排序学习模型的生成方式,包括:
构建训练样本集,每个训练样本包括一个样本多媒体资源对应的一个样本词组合和所述样本词组合中各样本词语的融合特征,且所述样本词组合中的各样本词语是按照各所述样本词语的词权重进行排序的;
根据所述训练样本集对初始的排序学习模型进行迭代训练,直至满足收敛条件时停止训练,得到所述排序学习模型。
7.根据权利要求6所述的多媒体资源的处理方法,其特征在于,所述构建训练样本集,包括:
获取多个样本多媒体资源各自对应的原始词组合;
获取各所述原始词组合中的各样本词语的词权重;
针对每个所述原始词组合,按照所述原始词组合中各所述样本词语的词权重大小,对各所述样本词语进行排序,得到所述样本词组合;
针对每个所述原始词组合中的各样本词语,获取所述样本词语的预测概率和所述样本词语的信息域特征,将对应的所述样本词语的预测概率和对应的所述样本词语的信息域特征进行合并,得到所述样本词语的融合特征;
利用多个所述样本多媒体资源各自对应的样本词组合,以及各所述原始词组合中的各样本词语的融合特征,构建所述训练样本集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010847843.0/1.html,转载请声明来源钻瓜专利网。





