[发明专利]基于深度学习的广播电视新闻关键词自动抽取方法在审
申请号: | 202110445476.6 | 申请日: | 2021-04-25 |
公开(公告)号: | CN112861540A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 温序铭;朱婷婷;杨瀚 | 申请(专利权)人: | 成都索贝视频云计算有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06N3/08;G06F16/38;G06F16/31 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 贾年龙 |
地址: | 610041 四川省成都市中国(四川)自由*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 广播电视 新闻 关键词 自动 抽取 方法 | ||
本发明公开了基于深度学习的广播电视新闻关键词自动抽取方法,包括步骤:S1,标注待分析的广播电视新闻数据的关键词信息,构建关键词数据集;S2,利用预训练模型构建关键词抽取模型,并利用步骤S1中所述关键词数据集训练所构建的关键词抽取模型;S3,利用步骤S2中训练好的关键词抽取模型,对输入的广播电视新闻进行预测,获得关键词抽取结果等;本发明能够对广播电视新闻内容进行高效的关键词提取,更准确地组织和管理媒体资源,提高管理效率,更好地为用户的检索与推荐发布服务提供技术支持等。
技术领域
本发明涉及广播电视新闻媒资自动标引领域,更为具体的,涉及基于深度学习的广播电视新闻关键词自动抽取方法。
背景技术
融合媒体时代,爆炸式增长的视频数据给媒体资源的再利用带来了巨大的挑战,节目的编目、标引的实时性要求相应变得更高。利用大数据和人工智能技术,对媒体内容进行多个维度的自动分类、标识、标引,实现媒体资源本身的内容标签的自动提取,提升编目质量和工作效率具有重要意义。这是媒体数据资料管理从传统的人工编目逐步转换到依托智能化管理平台的自动编目的支撑基础。
在媒体内容标签中,“关键词”是传统编目的一个重要著录项,与内容密切相关。我们分析了相关视频内容数据以及专业人员给出的关键词结果,发现关键词并非是词而可能是词、短语或多字,如十二五计划、三农问题、新型冠状病毒、三公消费禁令、高端白酒等。现有的依赖于分词的模型(如TextRank、TF-IDF等)无法获得这样的词汇;另一方面,因为这些关键词并无一定的语言特点,所以即便通过添加分词词库也无法完全覆盖。
发明内容
本发明的目的在于克服现有技术的不足,提供基于深度学习的广播电视新闻关键词自动抽取方法,能够对广播电视新闻内容进行高效的关键词提取,更准确地组织和管理媒体资源,提高管理效率,更好地为用户的检索与推荐发布服务提供技术支持等。
本发明的目的是通过以下方案实现的:
基于深度学习的广播电视新闻关键词自动抽取方法,包括步骤:
S1,标注待分析的广播电视新闻数据的关键词信息,构建关键词数据集;
S2,利用预训练模型构建关键词抽取模型,并利用步骤S1中所述关键词数据集训练所构建的关键词抽取模型;
S3,利用步骤S2中训练好的关键词抽取模型,对输入的广播电视新闻进行预测,获得关键词抽取结果。
进一步地,在步骤S1中,构建关键词数据集包括步骤:
S11,收集广播电视新闻数据,并将相关专业人员给出的关键词结果作为候选关键词;然后对候选关键词进行清洗,去除无意义和冗余的关键词,获得最终关键词结果;清洗包括:首先利用实体识别技术识别新闻文本数据中的实体,并从候选关键词中去除实体词;去除过长或过短的关键词以及未在原文中出现的关键词。这样,可以去除无意义和冗余的关键词,使得后续训练模型中能够更好识别有意义的关键词的特征,从而使得训练出的模型可以更好地提取有意义的关键词。
S12,对广播电视新闻文本数据进行分句和段落汇聚后,根据步骤S11中获得的最终关键词结果,利用字符串模式匹配方式对带标注文本进行标注,这里标注时标注标签包括B-KWD、I-KWD和O,B-KWD表示关键词开始部分,I-KWD表示关键词中间部分,O表示非关键词部分,从而构建所述关键词数据集。在该实施例的技术方案中,考虑到模型有字数限制,长篇文章会被模型截断,如果截断位置在某句中那么可能造成语义不完整,如果是其他情况则丢弃了有用样本,所以采用先对广播电视新闻文本数据进行分句和段落汇聚后,再进行文本标注。
进一步地,在步骤S2中,所述关键词抽取模型按串联顺序包括文本向量化层、第一关键词预测层和第二关键词序列标注层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都索贝视频云计算有限公司,未经成都索贝视频云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110445476.6/2.html,转载请声明来源钻瓜专利网。