[发明专利]一种面向模糊文本挖掘的新闻视频主题分割方法有效
| 申请号: | 201910062048.8 | 申请日: | 2019-01-23 | 
| 公开(公告)号: | CN109902289B | 公开(公告)日: | 2022-12-13 | 
| 发明(设计)人: | 姜大志;黄志均;曾文信;黄瑞香;漆原 | 申请(专利权)人: | 汕头大学 | 
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F40/279;G10L13/02;G10L13/08;G10L15/04;G10L15/26 | 
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 周增元;曹江 | 
| 地址: | 515000 *** | 国省代码: | 广东;44 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 面向 模糊 文本 挖掘 新闻 视频 主题 分割 方法 | ||
1.一种面向模糊文本挖掘的新闻视频主题分割方法,其特征在于,包括以下步骤:
S1:将新闻转换为音频;
S2:将所述音频转换成模糊文本;
S3:添加用户词典,根据所述用户词典与待分析的语料库,以逆向匹配的分词方式对文本使用字符串匹配进行分词;
S4:使用Filter方法计算得到特征项的子集,并根据权重来判断该特征项对文本的重要程度,
S5:分析音频信息,找出静音点作为潜在分割点;
S6:使用应用TextTiling算法的词性分析和命名实体分析方法确定保留和过滤词语来实现相关的计算;
S7:将所述词性分析后筛选出的词语序列,用语言模型转换成句子向量,并根据句子向量的相似度分布来更新潜在分割点;
S8:使用粒子群优化算法确定所述TextTiling算法参数进行文本主题分割。
2.根据权利要求1所述的面向模糊文本挖掘的新闻视频主题分割方法,其特征在于,所述步骤S3前还包括步骤:针对所述模糊文本的数据清洗。
3.根据权利要求2所述的面向模糊文本挖掘的新闻视频主题分割方法,其特征在于,所述步骤S3的字符串匹配是通过扫描Trie树实现。
4.根据权利要求2所述的面向模糊文本挖掘的新闻视频主题分割方法,其特征在于,所述步骤S5具体包括在使用阈值判断方法后得到初始分割点,之后使用贝叶斯信息准则对初次的初始分割点进行第二次分割。
5.根据权利要求4所述的面向模糊文本挖掘的新闻视频主题分割方法,其特征在于,所述步骤S7还包括根据文本中的特征词,分析文本中词语序列的词性,之后根据词性分析的结果进行相似度的计算。
6.根据权利要求5所述的面向模糊文本挖掘的新闻视频主题分割方法,其特征在于,所述相似度的计算包括采用tf-idf方法对文本信息向量化,
参数tf为在选取的语料库中的主题中出现的次数,参数idf代表的是使用语料库中总的主题数目除以当前词出现过的主题的数目,最后再取对数值,其中,其中,ni,j是当前词在文本dj中的出现次数,分母表示的是文本dj中所有词语出现的次数之和,|D|表示的是整个语料库中文档的个数,分母|{j∶ti∈dj}|表示的是在整个语料当中包含ti词语的文档的个数,最终的tf-idf值为tfi,j×idfi。
7.根据权利要求1-6任一项所述的面向模糊文本挖掘的新闻视频主题分割方法,其特征在于,所述步骤S8具体包括:
S81:模型初始化,定义词性分析所得到的词语序列得到的长度为word_size,伪句子长度为K,块的大小为W,初始化参数K,W,其中K取值范围为[1,word_size/2],W的取值范围是[1,word_size/k],W取值范围里面的K值为当前K的取值;
S82:计算适应度值,重新划分过滤之后的词语序列,对划分好的块使用TextTiling算法进行相似度计算,根据相似度的分布情况,寻找极值点,根据极小值点确定对应的分割点,分割点对应着词语序列的索引;
S83:更新种群个体,在计算了种群中所有个体的适应度值之后,记录种群中取得最优值的个体的K,W值,根据当前最优和种群最优的粒子坐标进行更新个体的坐标,再进行适应度的计算。
8.根据权利要求7所述的面向模糊文本挖掘的新闻视频主题分割方法,其特征在于,所述步骤S8还包括:使用TextTiling算法对文本当中的词语序列重新进行句子的划分,生成伪句子,之后根据伪句子和块的大小计算块与块之间的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汕头大学,未经汕头大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910062048.8/1.html,转载请声明来源钻瓜专利网。





