[发明专利]水帖自动鉴别及审批方法、装置及计算机可读存储介质在审
申请号: | 201811095297.9 | 申请日: | 2018-09-19 |
公开(公告)号: | CN109492216A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 杨将;祁家庆;喻红 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/9535;G06Q10/10 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 帖子 自动鉴别 计算机可读存储介质 网站发布 审批 字数 筛选 预先确定 大数据 网站 匹配 发布 | ||
本发明涉及一种大数据技术,揭露了一种水帖自动鉴别及审批方法,包括:接收当前提交的待发布到预先确定的网站的帖子;将接收的所述帖子的标题与一个关键词列表进行匹配,筛选出出现在所述帖子的标题中的关键词;计算筛选出来的关键词的字数占所述标题的字数的比例;若计算的比例大于或者等于指定值,则判断所述帖子为水帖,并拒绝在所述网站发布所述帖子;若计算的比例小于指定值,则判断所述帖子不是水帖,并在所述网站发布所述帖子。本发明还提出一种水帖自动鉴别及审批装置以及一种计算机可读存储介质。本发明实现了水帖的自动鉴别及审批。
技术领域
本发明涉及大数据技术领域,尤其涉及一种水帖自动鉴别及审批方法、装置及计算机可读存储介质。
背景技术
论坛的发展如同网络雨后春笋般的出现,并迅速的发展壮大。论坛几乎涵盖了人们生活的各个方面,几乎每一个人都可以找到自己感兴趣或者需要了解的专题性论坛。而各类网站,综合性门户网站或者功能性专题网站也都青睐于开设自己的论坛,以促进网友之间的交流,增加互动性和丰富网站的内容。
用户在论坛上可以分享个人观点、发布资料、讨论互动、公布信息等。通常在论坛上发布及回复的信息称之为“发帖”“回帖”“跟帖”等。
由于论坛上“发帖”“回帖”“跟帖”都是用户的自由行为,因此,有时用户可能会发些“水帖”。所述“水帖”是帖吧、论坛或bbs中一种对于主题无关紧要的、无意义的一些帖子的统称。
对于专业性的技术论坛或者工作论坛,用户发布一些心情之类的与技术或者工作不相关的水帖时,会影响到论坛的系统观感和搜索精确度。
对水帖进行智能鉴别以及审批是很重要的。
发明内容
本发明提供一种水帖自动鉴别及审批方法、装置及计算机可读存储介质,其主要目的在于提供一种不依赖于人工的筛选,智能鉴别及审批出在论坛中提交的水帖。
为实现上述目的,本发明提供的一种水帖自动鉴别及审批方法,包括:
接收当前提交的待发布到预先确定的网站的帖子;
将接收的所述帖子的标题与一个关键词列表进行匹配,筛选出出现在所述帖子的标题中的关键词;
计算筛选出来的关键词的字数占所述标题的字数的比例;
若计算的比例大于或者等于指定值,则判断所述帖子为水帖,并拒绝在所述网站发布所述帖子;
若计算的比例小于指定值,则判断所述帖子不是水帖,并在所述网站发布所述帖子。
可选地,该方法还包括:
获取网站中的所有帖子;
选出标示为水帖的帖子的标题,将所述水帖的标题进行分词处理,得到特征词;
按照所述特征词出现的频率,筛选出高频词,并将所述高频词记录于一个高频词列表中;
从所述高频词列表的高频词中,根据预设规则选择关键词,并将选择的关键词记录于所述关键词列表中。
可选地,将所述水帖的标题进行分词处理,得到特征词是采用长词优先原则,根据预存的词库对接收的关键词进行分词。
可选地,该方法还包括:
对所述特征词进行过滤处理,所述过滤处理采用以下一种或两种方式:
方式一、根据词性进行过滤,保留名词、动词以及形容词;
方式二、根据频次进行过滤,保留频次大于频次阈值的特征词,其中,频次是指特征词在标题中出现的频率或者次数。
可选地,所述预设规则是将所述高频词列表中的高频词与一个特定词库进行匹配,找出相匹配的词,作为所述关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811095297.9/2.html,转载请声明来源钻瓜专利网。