[发明专利]一种基于媒介贡献度的新闻热点预测方法在审
| 申请号: | 202110843006.5 | 申请日: | 2021-07-26 |
| 公开(公告)号: | CN113535956A | 公开(公告)日: | 2021-10-22 |
| 发明(设计)人: | 向安玲 | 申请(专利权)人: | 北京清博智能科技有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06Q10/04;G06K9/62 |
| 代理公司: | 北京世誉鑫诚专利代理有限公司 11368 | 代理人: | 郭官厚 |
| 地址: | 100088 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 媒介 贡献 新闻 热点 预测 方法 | ||
1.一种基于媒介贡献度的新闻热点预测方法,其特征在于:包括以下步骤:
步骤一:利用新闻热点标签的生成方法及系统提取新闻数据集中的新闻簇;
步骤二:利用智能信息处理技术来采集出这些热点舆情事件的相关数据;
步骤三:利用贡献值计算的模型对不同领域热点事件中,不同平台、不同类型账号、不同时期的贡献度进行计算;
步骤四:得到分平台、分信源、分时期的热点事件媒介贡献度指数。
2.如权利要求1所述的一种基于媒介贡献度的新闻热点预测方法,其特征在于:所述步骤一包括:
第一提取单元,用于提取新闻数据集中的新闻簇,一个所述新闻簇包括至少两个所述新闻记录;
确定单元,用于确定提取出的多个所述新闻簇中的热点新闻簇;
第二提取单元,用于提取所述热点新闻簇中各新闻记录的关键字;
第一生成单元,用于生成由一个新闻记录的至少两个所述关键字组合的组合词,一个新闻记录对应一个或多个所述组合词;
第二生成单元,用于根据所述组合词的热度值生成新闻热点标签。
3.如权利要求2所述的一种基于媒介贡献度的新闻热点预测方法,其特征在于:所述第一提取单元包括:
第一计算模块,用于计算所述新闻数据集中两个新闻记录之间的相似度;
判断模块,用于判断所述相似度是否大于第一预设阈值;以及
第一确定模块,用于所述相似度大于所述第一预设阈值时,确定所述两个新闻记录属于同一新闻簇。
4.如权利要求3所述的一种基于媒介贡献度的新闻热点预测方法,其特征在于:所述第一计算模块包括:
特征化子模块,用于将所述两个新闻记录分别进行特征化提取,得到一个新闻记录对应的第一向量和另一个新闻记录对应的第二向量;
计算子模块,用于采用以下任意一个公式计算所述相似度:
Sim(x,Y)=(x*Y)/(||x|1*1|γ||),或者;
其中,Sim(X,Y)为所述相似度,X为所述第一向量,Y为所述第二向量,X=(x1,x2,x3,…,xn),Y=(y1,y2,y3,…,yn),||X||和||Y||分别为X和Y的欧几里得范数,所述第一向量对应的新闻记录为第一新闻记录,所述特征化子模块采用以下步骤得到所述第一向量:对所述第一新闻记录的标题和正文进行分词,得到由多个词元组成的第一词元集;根据词元在所述第一新闻记录中出现的次数计算所述第一词元集中词元对应的特征值;删除所述第一词元集中特征值小于第二预设阈值的词元;以及
生成所述第一向量:X=(W1,C1,W2,C2,W3,C3,···,Wn,Cn),其中,W1,W2,W3,···,Wn为所述述第一词元集中词元,C1,C2,C3,···,Cn分另lj为词元对应的特征值,n为所述第一词元集中词元的个数,所述特征化子模块采用以下公式计算所述第一词元集中词元对应的特征值:Ci=al+a2*T+a3*P+a4*K其中,Ci为所述第一词元集中第i个词元对应的特征值,al为所述第i个词元在所述第一新闻记录中出现的次数,a2为所述第i个词元在所述第一新闻记录的标题中出现的次数,a3为所述第i个词元在所述第一新闻记录的段首或段尾中出现的次数,a4为所述第i个词元在所述第一新闻记录的关键句中出现的次数,T、P、K均为无量纲参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京清博智能科技有限公司,未经北京清博智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110843006.5/1.html,转载请声明来源钻瓜专利网。





