[发明专利]基于证据理论的中文微博可信度评估方法有效
申请号: | 201410149429.7 | 申请日: | 2014-04-13 |
公开(公告)号: | CN103927297B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 高明霞 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京思海天达知识产权代理有限公司11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 证据 理论 中文 可信度 评估 方法 | ||
1.基于证据理论的中文微博可信度评估方法,其特征在于步骤如下:
步骤1:预处理,将从各微博平台获取的Json格式微博,通过格式解析形成有效数据,然后借助现有的自然语言处理工具,对有效数据中的微博文本进行分词、词性标注、图标检测、错误词检测、重复标点检测等预处理工作,并统计相关数据;
步骤2:文本信息的可信度测量,信息本身的可信度可以从客观和主观两个方面入手考察,客观因素主要包括句法、语法、语气和语义四个层面,前两个层面,考虑了文本长度Slength和拼写错误Sspelling两个指标,具体计算方法如表1所示,表1同时列出了本发明考虑的和语气相关的三个因素分别是:图标Semoticons、重复标点Spunc以及正性词/负性词Sposi/neg,本发明将语义因素归结到任务相关领域,信息本身的可信度测量不涉及;影响文本信息可信度的主观因素反映的是其他用户对该文本质量的主观看法,通过分析主流中文微博平台数据,发现针对单个文本的可直接测量的主观因素有直接转贴数Sreposts和用户评论数Scomments,具体计算方法如表1所示;
本发明采用均值模式来分别融合客观因素和主观因素,然后再通过一个介于[0,1]之间的权重λ来控制客观和主观因素的相对权重,将各个影响因素的得分进行min-max标准化,计算方法如下:
其中v是需要标准化的值,min与max是某一影响因素得分的最小值与最大值,min'与max'是标准化区间的最小最大值;
所述主观和客观综合可信度值的加权融合计算方法如下:
由于客观因素更重要,本发明设定λ=0.7,分别表示表1中各客观影响因素和各主观影响因素的标准化取值;
表1文本质量影响因素的计算方法
步骤3:信息来源的可信度测量,任何微博最初都是由人产生的,因此信息来源就是文本信息作者,微博用户可信度由他的客观日常行为和主观外部评价累积形成,可测量客观日常行为包括是否做过实名认证Φ,发布的文本信息总数Sposts,以及发布的高可信文本信息总数SHposts,而微博用户可测量外部评价包括追随者数目Sfellows,文本信息反馈情况Scomments,上述指标中,对作者影响最大的是是否实名认证,本发明将实名认证这一指标定义为一个二值函数[0,1],信息总数和高可信信息总数是两个关联指标,表2列出了这些指标的具体计算方法,作者可信度的加权综合融合方式计算方法如下:
其中是表2中主观影响因素的min-max标准化取值,waut、wext和wsub分别是认证因素、客观因素和主观因素的权重,为突出认证的重要性本发明权重比例设定waut:wext:wsub=5:3:2;
表2作者影响因素的计算方法
步骤4:信息传播的可信度测量,影响信息传播可信度的因素包括两项,一是时效,二是传播媒介,本发明将时效因素也归结到了任务相关领域,传播媒介对文本信息可信度的影响方式通过两种情况递增:一种是传播媒价中包含可信度高的名人;另外一种是传播媒介中节点数目庞大,这种提升趋向于一个确定的阈值,依据可信度递增规律,本发明定义了用于具体计算传播媒介对微博文本可信度的影响,计算方法如下:
其中Cauthoir是用户根据可信度值递减排序后得到的第i个传播者的可信度,μ<1是递减因子;
步骤5:基于多维证据理论的可信度融合评估,本发明对三个维度可信度检测结果进行合成,得到综合微博可信度的过程将采用改进的D-S证据理论方法对多个维度的基本概率分配函数进行合成,计算方法如下:
其中,辨识框架
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410149429.7/1.html,转载请声明来源钻瓜专利网。