[发明专利]一种基于多模态信息融合理解的全媒体新闻智能编目方法有效

申请号：	202110198428.1	申请日：	2021-02-22
公开（公告）号：	CN112818906B	公开（公告）日：	2023-07-11
发明（设计）人：	张随雨;俞定国;方莉萍;钱永江;王亚奇;马小雨	申请（专利权）人：	浙江传媒学院
主分类号：	G06V40/16	分类号：	G06V40/16;G06V10/74;G06V10/80;G06V10/77;G06V10/82;G06N3/0464;G06N3/049;G06N3/08
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	陈升华
地址：	310018 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于多模态信息融合理解媒体新闻智能编目方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于多模态信息融合的全媒体新闻智能编目方法，对全媒体新闻中的视频信息、语音信息、字幕条信息、人物信息进行统一表征与融合理解来获得多模态融合特征，使用多模态融合特征实现新闻的自动切片、自动编目描述、自动场景分类。本发明的有益效果在于：实现了面向全媒体新闻的自动化综合编目的完整流程，通过在视频、音频、文本多种模态融合的基础上生成拆条标记、新闻编目描述、新闻分类标签、新闻关键词、新闻人物，提高了编目方法的准确率与泛化性，并大幅减少人工编目时间。

技术领域

本发明涉及智能媒体领域，具体涉及一种基于多模态信息融合理解的全媒体新闻智能编目方法。

背景技术

随着智能移动设备的普及以及数字媒体内容的发展，包含图像、视频、语音、文本等全媒体新闻内容被高频生产并快速传播，海量资源与高人力成本的问题使得传媒行业越来越迫切的寻求在分类、编目、检索等资源管理流程中的智能化方法。

全媒体新闻是典型的多模态内容载体，它包含了新闻现场或演播室影像、新闻字幕文本、新闻播报语音等多模态信息，这使得面向单模态处理的智能技术无法有效替代编目任务中的人工流程。相比于单模态，多模态之间的互补性、关联性提供了求解每种模态潜在解释因素的监督信息，对多模态信息进行表征、转化、融合等综合的处理更接近于人类智能对自然界的感知与理解模式。因此，如何融合新闻内容中多种模态信息，实现资源的自动化编目流程，是媒体行业广泛存在的需求和挑战。

目前，不论是以电视台为代表的传统广电单位，还是以今日头条为代表的新兴自媒体社区，人工编目仍然是媒体内容分类入库的普遍方法，其一般步骤是：编目人员先将新闻视频按场景或镜头进行切片(拆条)标注，然后对各个片段的内容进行文本描述、关键词描述、广电分类描述、关键人物描述等，最后提交入库。高质量的新闻编目可以提供优质的资源检索、资源点播、资源推荐等服务，是全媒体时代重要的基础业务流程。尽管近年来有云媒资系统、深度学习等新框架或新技术的辅助，增加了新闻编目流程的自动化程度，但它们常限于对资源的云端管理，或是对单模态内容的单任务处理，无法覆盖编目所需的完整流程以实现全面的智能化流水线。我们将当前已有的编目方法归纳如下：

1.传统编目管理系统：采用手动的方式进行新闻资源的切片、描述、分类等，全部操作取决于编目人员的主观判断。该方法普遍用于传媒行业的传统媒资管理系统，管理人员首先登录系统，然后对待编资源进行相应操作，最后提交系统完成入库。

2.具有智能拆条辅助的编目系统：采用基于镜头转换的分割方法，将新闻资源拆分为独立片段(即自动标注拆条的起止时间)，编目人员对切片效果进行确认，然后手动完成片段描述、分类等后续工作。

3.具有智能场景分类的编目系统：采用深度学习等技术对视频场景进行智能分类，自动为视频标注“综艺”、“体育”、“动画”等场景标签，编目人员对分类标签进行确认，然后手动完成拆条、片段描述、分类等后续工作。

4.综合智能编目系统：包含上述1、2、3条中若干功能的综合系统，但系统中的各个功能都是相对独立的，即针对同一资源分别运行对应的算法以生成基于单模态信息的结果。

上述编目方法存在两点主要缺陷。第一，系统中涉及到的智能算法均是面向单模态内容的提取、分析和生成方法，即使计算机视觉、自然语言处理、语音识别等人工智能技术在单模态信息的处理任务上已经达到了接近或超越人脑的能力，但单模态的信息往往难以提供场景或现象中的完整知识；在全媒体新闻编目流程中，由于缺少对新闻内容包含的多模态信息的统一表征(融合)与综合分析(理解)的有效方法，大量的分类、标注、描述、审核工作仍然需要投入较多的人工成本来完成。第二，智能编目系统中的视频镜头分割、视频语义描述等方法是从已有的机器学习任务场景移植来的，这些方法在面向新闻报道场景时存在兼容问题：基于镜头转换的分割仅考虑前后帧的变化，常用于关键帧提取的前置步骤，但它没有考虑同一场景中事件的连续性，如同一事件中远景与中景的镜头的切换在新闻编目中一般认为是一个片段，不需要加以分割；视频语义描述常分析场景中的动作及事件的描述，但它没有聚焦核心人物的行为事件，这与编目中的片段内容描述需求不符。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江传媒学院，未经浙江传媒学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110198428.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种清雪机机架
下一篇：一种拉丝润滑粉加工生产用定量投料装置

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多模态信息融合理解的全媒体新闻智能编目方法有效

专利文献下载