[发明专利]一种基于网络的微博消息可信度判别模型的方法有效
申请号: | 201710609782.2 | 申请日: | 2017-07-25 |
公开(公告)号: | CN107403007B | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 段大高;盖新新;韩忠明;莫倩 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28;G06F16/958;G06F40/279 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 李娜 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网络 消息 可信度 判别 模型 方法 | ||
1.一种基于网络的微博消息可信度判别模型的方法,其特征在于:该方法具体步骤如下:
步骤一:计算先验知识
对于一条评论u,首先计算它在初始状态时是一条虚假评论的可能性yu;在半监督模式中,如果评论u是一条虚假评论,其yu=1,否则yu=0;对于未标注的评论,认为其yu=0;在非监督模式中,评论u在初始状态时是一条虚假评论的可能性yu通过等式(1)计算:
其中,f(xlu)表示评论u关于特征l是一条虚假评论的可能性,L表示总的特征数量;而f(xlu)是通过等式(2)计算:
Xl是特征l的随机变量,其对应的概率分布为P;
步骤二:定义网络模式
根据提取的特征可以定义网络模式,网络模式中描述了不同类型的网络节点以及在网络中各个节点是怎样连接的;
步骤三:定义元路径并生成网络
对于一条评论u,其关于某个特征l的虚假评论确定性的等级由等式(3)计算:
其中,s是等级的个数,这里选择s=10,也就是说,一共有10个等级,即
如果两条评论u和v,它们关于某个特征l的虚假评论确定性的等级相等,即那么为评论u和评论v之间建立一条关于特征l的元路径,它们之间的元路径的值记为则如果两条评论u和v的虚假评论确定性的等级和不相等,则它们之间就是没有元路径的,它们之间的元路径的值记为
对所有评论关于每个特征计算虚假评论确定性的等级,为所有相等等级的两条评论建立元路径,直至生成整个评论网络;
步骤四:在异构信息网络上做分类
①计算特征权重,得到每个特征在判别模型中的重要性
在异构信息网络中,如果两个节点关于某个特征l存在元路径,且已知其中一个节点关于特征l是虚假评论的可能性很高,则另一个节点关于特征l是虚假评论的可能性也很高;在计算特征权重时,只考虑已经被标注为虚假消息评论所作的贡献;为了计算特征l的权重Wl,提出下面等式(4):
其中,n表示评论的数量,表示评论u和评论v通过特征l连接的元路径的值,如果评论u和评论v关于特征l是没有元路径的,则yu和yv是评论u和评论v的先验知识,即,在半监督模式中,初始状态时如果评论u是一条虚假消息评论,其yu=1,否则yu=0;对于未标注的评论,认为其yu=0;在非监督模式中,初始状态时评论u的先验知识是通过等式(1)去计算的;
②计算评论是虚假评论的最终概率
对于一条未标注的评论u,需要计算其是虚假评论的最终概率,这里我们只考虑其和已经被标注为虚假评论v的关系;如果评论u与虚假评论v之间有元路径,则评论u是虚假评论的可能性Pu,v用等式(5)计算:
则评论u是虚假评论的最终概率Pu通过等式(6)计算:
Pu=avg(Pu,1,Pu,2,...,Pu,r)(6)
其中r表示在异构信息网络中与评论u有元路径的已经被标注为虚假评论的数量;
步骤五:虚假消息识别
将微博消息的评论分类之后,通过统计各个消息中真假评论所占的比例可以得到一个阈值,它能够将真假消息很好地区分开,如果一个消息中虚假评论数量超过这个阈值,那么这个微博消息就是一个虚假消息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710609782.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数字化证据管理系统
- 下一篇:一种基于更新序列号眼科影像处理归档的方法