[发明专利]低质新闻资源的识别方法及装置、计算机设备及可读介质有效
| 申请号: | 201710474726.2 | 申请日: | 2017-06-21 |
| 公开(公告)号: | CN107463605B | 公开(公告)日: | 2021-06-11 |
| 发明(设计)人: | 乔超;黄波;李大任;佘俏俏 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/583;G06F40/289;G06F40/30 |
| 代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 低质 新闻 资源 识别 方法 装置 计算机 设备 可读 介质 | ||
1.一种低质新闻资源的识别方法,其特征在于,所述方法包括:
获取待识别的新闻资源的信息;
根据预先建立的低质新闻信息库与所述待识别的新闻资源的信息,确定所述待识别的新闻资源是否为低质新闻资源,具体包括:
若所述待识别的新闻资源仅包括文本信息,根据预先建立的低质新闻文本库和所述待识别的新闻资源的文本信息,识别所述待识别的新闻资源的文本信息是否为低质新闻文本;若是,确定所述待识别的新闻资源为低质新闻资源;
若所述待识别的新闻资源仅包括图片,根据预先建立的低质新闻图片库和所述待识别的新闻资源的图片,识别所述待识别的新闻资源的图片是否为低质图片;若是,确定所述待识别的新闻资源为低质新闻资源;
若所述待识别的新闻资源包括文本信息和图片,根据预先建立的低质新闻文本库、低质新闻图片库,以及所述待识别的新闻资源的文本信息和图片,确定所述待识别的新闻资源是否为低质新闻资源,具体包括:根据预先建立的低质新闻文本库和所述待识别的新闻资源的文本信息,识别所述待识别的新闻资源的文本信息是否为低质新闻文本;根据预先建立的低质新闻图片库和所述待识别的新闻资源的图片,识别所述待识别的新闻资源的图片是否为低质图片;若所述待识别的新闻资源的文本信息为低质新闻文本和/或所述待识别的新闻资源的图片为低质图片,确定所述待识别的新闻资源为低质新闻资源。
2.根据权利要求1所述的方法,其特征在于,若所述待识别的新闻资源仅包括文本信息,获取待识别的新闻资源的信息,具体包括:获取所述待识别的新闻资源的文本信息;
根据预先建立的低质新闻信息库与所述待识别的新闻资源的信息,确定所述待识别的新闻资源是否为低质新闻资源,具体还包括:
否则,确定所述待识别的新闻资源为非低质新闻资源;
若所述待识别的新闻资源仅包括图片,获取待识别的新闻资源的信息,具体包括:获取所述待识别的新闻资源的图片;
根据预先建立的低质新闻信息库与所述待识别的新闻资源的信息,确定所述待识别的新闻资源是否为低质新闻资源,具体还包括:
否则,确定所述待识别的新闻资源为非低质新闻资源;
若所述待识别的新闻资源包括文本信息和图片,获取待识别的新闻资源的信息,具体包括:获取所述待识别的新闻资源的文本信息和图片;
进一步地,根据预先建立的低质新闻文本库、低质新闻图片库,以及所述待识别的新闻资源的文本信息和图片,确定所述待识别的新闻资源是否为低质新闻资源,具体还包括:
否则,确定所述待识别的新闻资源为非低质新闻资源。
3.根据权利要求2所述的方法,其特征在于,根据预先建立的低质新闻文本库和所述待识别的新闻资源的文本信息,识别所述待识别的新闻资源的文本信息是否为低质新闻文本,具体包括:
从所述待识别的新闻资源的文本信息中提取能够标识所述待识别的新闻资源的多个特征词;
根据所述多个特征词和预先获取的所述低质新闻文本库的倒排索引,从所述低质新闻文本库中,获取包括所述多个特征词中至少一个所述特征词的多个低质新闻文本作为备选低质新闻文本,得到多个备选低质新闻文本;
统计所述多个特征词中的各所述特征词在所述待识别的新闻资源的文本信息中的权重;并从所述低质新闻文本库的倒排索引中获取各所述特征词在各所述备选低质新闻文本中的权重;
根据所述多个特征词中的各所述特征词在所述待识别的新闻资源的文本信息中的权重,以及在各所述备选低质新闻文本中的权重,从所述多个备选低质新闻文本获取N个候选低质新闻文本;
以段落为粒度,计算所述待识别的新闻资源与各所述候选低质新闻文本的文本相似度;
将所述待识别的新闻资源与各所述候选低质新闻文本的文本相似度进行归一化处理;
判断归一化处理后的各所述文本相似度值中是否存在大于预设相似度阈值的相似度值,若存在,确定所述待识别的新闻资源的文本信息为低质新闻文本;否则确定所述待识别的新闻资源的文本信息为非低质新闻文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710474726.2/1.html,转载请声明来源钻瓜专利网。





