[发明专利]删除谣言文章的方法、装置、存储介质及电子设备有效
申请号: | 201811156744.7 | 申请日: | 2018-09-30 |
公开(公告)号: | CN109388696B | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 宝腾飞;李建波;刘真;崔蕊 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 北京金信知识产权代理有限公司 11225 | 代理人: | 崔家源;夏东栋 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 删除 谣言 文章 方法 装置 存储 介质 电子设备 | ||
本公开公开了一种删除谣言文章的方法、装置、存储介质及电子设备,方法包括:在接收到发布的新文章的情况下,检测谣言数据库中是否存在与新文章的关键词相似概率大于预设概率的文章;在存在相似概率大于预设概率的文章的情况下,将新文章与相似概率大于预设概率的文章作为预设语言模型的输入参数,通过预设语言模型得到新文章与相似概率大于预设概率的文章的匹配度;在匹配度大于预设匹配度的情况下,将新文章从用户平台中删除。本公开通过谣言数据库和预设语言模型来自动对发布的新文章进行谣言鉴定,双重确定方式能够更加客观和准确的鉴定谣言文章,节省了人力审核的过程,且不论是否为热文都可以进行筛查,处理范围较广,处理效率较高。
技术领域
本公开涉及互联网领域,特别涉及一种删除谣言文章的方法、装置、存储介质及电子设备。
背景技术
随着互联网的兴起、移动设备的普及,信息传播的速度也变得越来越快。一方面为人们的生活带来便利,另一方面也会造成不良影响。如果传播的文章是谣言,则该谣言就会迅速传播,这些谣言严重影响了用户辨别是非的能力,有的谣言还可能会影响用户的正常生活,甚至导致不必要的危害。
然而,现有技术中,谣言鉴定主要是专家鉴定,鉴定确定为谣言后再进行文章的删除,但限于审核人力成本,只能对热文做排查,处理效率比较低下。
发明内容
有鉴于此,本公开实施例提出了一种删除谣言文章的方法、装置、存储介质及电子设备,用以解决现有技术的如下问题:谣言鉴定主要是专家鉴定,鉴定确定为谣言后再进行文章的删除,但限于审核人力成本,只能对热文做排查,处理效率比较低下。
一方面,本公开实施例提出了一种删除谣言文章的方法,包括:在接收到发布的新文章的情况下,检测谣言数据库中是否存在与所述新文章的关键词相似概率大于预设概率的文章;在存在相似概率大于预设概率的文章的情况下,将所述新文章与所述相似概率大于预设概率的文章作为预设语言模型的输入参数,通过所述预设语言模型得到所述新文章与所述相似概率大于预设概率的文章的匹配度;在所述匹配度大于预设匹配度的情况下,将所述新文章从用户平台中删除。
可选的,所述方法还包括:将所述新文章的属性标记为谣言属性,并将所述新文章添加至所述谣言数据库中。
可选的,所述将所述新文章的属性标记为谣言属性包括:识别所述新文章中各部分的内容,将所述新文章的标题和/或段落标记为谣言属性。
可选的,检测谣言数据库中是否存在与所述新文章的关键词相似概率大于预设概率的文章,包括:对所述新文章进行分词处理,以提取所述新文章的关键词;根据所述关键词确定所述新文章的领域类别;在所述谣言数据库的所述领域类别对应的文章中检测是否存在与所述新文章的关键词相似概率大于预设概率的文章。
可选的,所述预设语言模型的训练过程如下:获取谣言数据库中标记为谣言属性的文章和类似谣言文章,将所有获取到的文章作为正样本,其中,所述类似谣言文章为与谣言文章匹配度达到预设匹配度的文章;获取谣言数据库中标记为谣言属性的文章和非谣言文章,将所有获取到的文章作为负样本,其中,所述非谣言文章为与谣言文章匹配度小于预设匹配度的文章;使用所述正样本和所述负样本训练所述预设语言模型学习谣言文章和非谣言文章的匹配关系。
另一方面,本公开实施例提出了一种删除谣言文章的装置,包括:检测模块,用于在接收到发布的新文章的情况下,检测谣言数据库中是否存在与所述新文章的关键词相似概率大于预设概率的文章;匹配模块,用于在存在相似概率大于预设概率的文章的情况下,将所述新文章与所述相似概率大于预设概率的文章作为预设语言模型的输入参数,通过所述预设语言模型得到所述新文章与所述相似概率大于预设概率的文章的匹配度;操作模块,用于在所述匹配度大于预设匹配度的情况下,将所述新文章从用户平台中删除。
可选的,所述操作模块,还用于将所述新文章的属性标记为谣言属性,并将所述新文章添加至所述谣言数据库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811156744.7/2.html,转载请声明来源钻瓜专利网。