[发明专利]一种面向模糊文本挖掘的新闻视频主题分割方法有效

申请号：	201910062048.8	申请日：	2019-01-23
公开（公告）号：	CN109902289B	公开（公告）日：	2022-12-13
发明（设计）人：	姜大志;黄志均;曾文信;黄瑞香;漆原	申请（专利权）人：	汕头大学
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/30;G06F40/279;G10L13/02;G10L13/08;G10L15/04;G10L15/26
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	周增元;曹江
地址：	515000 ***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明实施例公开了一种面向模糊文本挖掘的新闻视频主题分割方法，包括步骤：将新闻视频转换成音频，使用语音识别技术将音频转换成模糊文本；使用语音识别技术将音频转换成模糊文本；文本的分词；文本的表示；分析音频信息，找出静音点作为潜在分割点；对模糊文本进行分割点识别，更新潜在分割点；把词性分析后筛选出的词语序列，用语言模型转换成句子向量，并根据句子向量的相似度分布来更新潜在分割点；基于PSO确定TextTiling算法参数进行文本主题分割。采用本发明，把视频信息以故事为单位进行语义分割从而形成独立的语义单元，可应用于众多视频检索的应用领域，如影视、监控、交通视频等。
搜索关键词：	一种面向模糊文本挖掘新闻视频主题分割方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种面向模糊文本挖掘的新闻视频主题分割方法，其特征在于，包括以下步骤：S1：将新闻转换为音频；S2：将所述音频转换成模糊文本；S3：添加用户词典，根据所述用户词典与待分析的语料库，以逆向匹配的分词方式对文本使用字符串匹配进行分词；S4：使用Filter方法计算得到特征项的子集，并根据权重来判断该特征项对文本的重要程度，S5：分析音频信息，找出静音点作为潜在分割点；S6：使用应用TextTiling算法的词性分析和命名实体分析方法确定保留和过滤词语来实现相关的计算；S7：将所述词性分析后筛选出的词语序列，用语言模型转换成句子向量，并根据句子向量的相似度分布来更新潜在分割点；S8：使用粒子群优化算法确定所述TextTiling算法参数进行文本主题分割。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于汕头大学，未经汕头大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910062048.8/，转载请声明来源钻瓜专利网。

上一篇：智能条款分析方法、装置、计算机设备及存储介质
下一篇：一种基于文本信息的术语提取方法、系统和设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向模糊文本挖掘的新闻视频主题分割方法有效

专利文献下载