[发明专利]一种面向实时新闻内容的流式话题演化跟踪方法有效
| 申请号: | 201810195967.8 | 申请日: | 2018-03-09 |
| 公开(公告)号: | CN108509517B | 公开(公告)日: | 2021-05-11 |
| 发明(设计)人: | 杨鹏;张成帅;李幼平;张长江 | 申请(专利权)人: | 东南大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F16/9535;G06F40/295;G06F40/30 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
| 地址: | 211189 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 实时 新闻 内容 话题 演化 跟踪 方法 | ||
1.一种面向实时新闻内容的流式话题演化跟踪方法,其特征在于,包括如下步骤:
步骤1,初步话题挖掘:对于从互联网实时采集到的新闻内容,先按时间段对其进行分批,然后逐批采用LDA方法初步挖掘出K个话题,K为正整数;
步骤2,话题与实体关联:引入命名实体对LDA话题进行表征,通过实体将多个时间段聚类的话题相串联;
步骤3,话题内词项聚类:结合命名实体,利用词项在文档中的共现性特征,实现了话题内词项聚类;
步骤4,话题及其内部类簇热度信息提取:引入话题热度作为话题强度的量纲,并采用数据集内所有文档对该话题的贡献度来衡量话题热度;影响文档对话题贡献度的因素为文档的话题集中度和文档到达时间;话题内类簇的热度信息提取考虑两个因素:话题热度和话题内类簇词频之和与话题词频之和的比值;
步骤5,话题演化跟踪:通过当前话题及其内部类簇的热度信息对下一时间片段LDA话题挖掘模型中求解话题在单词上概率分布的超参数进行调节,实现了话题的有效跟踪。
2.如权利要求1所述的面向实时新闻内容的流式话题演化跟踪方法,其特征在于,所述步骤1中,针对第t批次采集的新闻内容Dt,首先确定这一批次面向实时新闻内容的流式话题演化跟踪方法中超参数的取值如果t为0,则初始化为预设值和其中若t1,则初始化为t-1时间段动态更新后的和接着,以模型超参数和对新闻内容Dt进行LDA话题挖掘,生成话题集合并且得到Dt中每个文档属于话题的概率。
3.如权利要求1所述的面向实时新闻内容的流式话题演化跟踪方法,其特征在于,所述步骤2包括如下内容:
步骤2-1,新闻命名实体识别;首先利用预先定义好的特征模板从文本中提取特征,通过和词典进行匹配,得到训练好的命名实体识别模型;然后在进行新闻命名实体识别时,使用相同的特征模板进行特征提取,并根据训练所得到命名实体识别模型进行命名实体的识别;
步骤2-2,实体-话题关联度计算;实体-话题关联度的计算方式主要考虑两个因素:文档在该话题上的分布概率和文档中实体词项的重要性;其中,文档m在话题k上的分布概率由LDA话题挖掘结果给出,而文档中实体词项的重要性由词频-逆向文件频率(TF-IDF)值衡量,文档m中命名实体i与话题k间关联度ξi,k的计算公式如公式(1)所示:
其中,tfi表示实体i的词频(TF)值,idfi表示实体i的逆向文件频率(IDF)值;
步骤2-3,实体链接关系更新;通过步骤2-2得到当前文档中实体-话题间关联度后,若实体库中已存在该实体,只需以累加方式更新相应的实体-话题关联度;否则,需先插入该实体-话题关系,再更新相应的实体-话题关联。
4.如权利要求1所述的面向实时新闻内容的流式话题演化跟踪方法,其特征在于,步骤3中,话题内词项聚类采用层次聚类方式实现,具体又分为2个步骤:
步骤3-1,基于距离依赖的中餐馆就餐过程ddCRP算法的话题相关实体词项聚类;基于ddCRP算法的基本思想,将每个实体词项看做一个customer,将由实体词项构成的类簇看做table,先考虑实体词项之间的关联,再将关联在一起的实体词项看做是一个类簇;假设α为标量参数,f为衰减函数,S为所有实体间的关联度计算矩阵,实体词项在类簇上服从G0分布;则基于ddCRP的话题相关实体词项聚类算法的完整概率生成过程可描述为:
(1)对于每个实体i,i∈[1,N],依据其与其他实体间的语义关联度,获得其customer分配结果ci~ddCRP(S,α,f);
(2)根据所有实体的customer分配结果,获得实体i的类簇分配结果zi;
(3)对于每一个类簇k,k∈{1,...},其包含的实体词项e*~G0;
(4)对于每一个实体i,i∈[1,N],将其分配到最终类簇;
步骤3-2,基于K-Means算法的话题内词项聚类;该步骤利用步骤3-1得到的实体词项聚类结果,利用非实体词项与实体词项以及非实体词项间共现关系进行话题内词项的最终聚类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810195967.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种在财经日历中筛选信息的方法及系统
- 下一篇:信息处理方法及设备
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法





