[发明专利]一种基于信息熵的信息实体传播影响力计算方法在审

专利信息
申请号: 202211035787.6 申请日: 2022-08-26
公开(公告)号: CN115293162A 公开(公告)日: 2022-11-04
发明(设计)人: 李攀攀;谢正霞 申请(专利权)人: 嘉兴学院
主分类号: G06F40/289 分类号: G06F40/289;G06F40/216;G06F17/18;G06F16/33;G06Q50/00
代理公司: 郑州睿途知识产权代理事务所(普通合伙) 41183 代理人: 李伊宁
地址: 314000 浙江省嘉兴市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 信息 实体 传播 影响力 计算方法
【权利要求书】:

1.一种基于信息熵的信息实体传播影响力计算方法,其特征在于,依次包括以下步骤:

A:针对信息集构建语料库;

B:构建待计算传播影响力的信息集中的信息实体ti的最终关键信息特征集;构建方法为:首先利用语料库对信息集进行分词处理及分词的词频权重计算,然后依据设定的词频阈值选出信息实体ti的初选关键信息特征集;然后再计算初选关键信息特征集中各个分词间的逐点互信息,并利用设定的逐点互信息阈值最终选取信息实体ti的最终关键信息特征集;

C:对步骤B中得到的信息实体ti的最终关键信息特征集中的离散随机变量进行去重和共指消解,得到预处理后的信息实体ti的最终关键信息特征集;

D:根据步骤C中得到的预处理后的信息实体ti的最终关键信息特征集,利用拉格朗日乘子法计算信息实体ti的传播影响力的信息熵Pi,最终得到信息实体ti的传播影响力;

信息实体ti的传播影响力的信息熵Pi的计算公式为:

其中,预处理后的信息实体ti的最终关键信息特征集由{x1,x2,..,xn}构成,ci表示预处理后的信息实体ti的最终关键信息特征集中离散随机变量xi的取值次数,xi∈{x1,x2,..,xn};当xi的取值次数为0时,ci为空,Pi受∑p(c)=1的约束;p(c1)=p(c2)=...=p(cm),p(c1,c2,…,cm)=1/m。

2.根据权利要求1所述的基于信息熵的信息实体传播影响力计算方法,其特征在于,所述的步骤B包括以下具体步骤:

B1:使用步骤A中得到的语料库,对信息实体ti所在的信息集进行文本分词处理;然后对待计算传播影响力的信息实体ti中的每一个分词,分别进行词频权重计算;

B2:依据步骤B1中得到的信息实体ti中每个分词的词频权重,选取前T个大于所设定的词频阈值K1的分词,作为信息实体ti的初选关键信息特征,并得到信息实体ti的初选关键信息特征集;

B3:分别计算信息实体ti的初选关键信息特征集中每个分词与其他分词的逐点互信息;

B4:依据步骤B3中得到的信息实体ti的初选关键信息特征集中分词间的逐点互信息,若两个分词xi和xj间的逐点互信息大于所设定的逐点互信息阈值K2,则判断分词xi和分词xj属于信息实体ti的最终关键信息特征,最后利用所得到的所有最终关键信息特征,构建信息实体ti的最终关键信息特征集。

3.根据权利要求2所述的基于信息熵的信息实体传播影响力计算方法,其特征在于,所述的步骤B1中,分词qi的词频权重wf(qi)的计算公式如下:

其中,N为信息实体ti所在的信息集中所含有的信息实体的总数,ni表示信息实体ti所在的信息集中所包含的信息实体ti的总数,mi表示信息实体ti所在的信息集中分词qi的总数,Mi表示信息实体ti所在的信息集中含有分词qi的信息实体的总数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于嘉兴学院,未经嘉兴学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211035787.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top