[发明专利]基于语义相似度的垃圾评论过滤方法无效

专利信息
申请号: 201310110615.5 申请日: 2013-04-01
公开(公告)号: CN103226576A 公开(公告)日: 2013-07-31
发明(设计)人: 姜明;沈幸峰;陈婵;王兴起;汤景凡;张旻 申请(专利权)人: 杭州电子科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 杜军
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 语义 相似 垃圾 评论 过滤 方法
【说明书】:

技术领域

发明涉及一种垃圾评论过滤方法,具体是一种基于语义相似度的垃圾评论过滤方法。

背景技术

互联网的发展与普及深刻地改变了人们的生活和思维方式,网络已经成为当今人们获取知识、发布信息、交流沟通的主要工具。对于当今视频网站、博客、微博、电子商务等互动式模式的发展,使得学术界和互联网企业界对于评论中信息的挖掘越来越关注。评论中蕴含有很大的信息量,商品评论可以分析得出评论者对商品的购买表示值得还是不值得,视频的评论可以反映观看者对于视频的态度或者情感表达,博文的评论可以反映评论者对博文的观点以及对博主的情感表达。

每天大量的垃圾评论被网友、商家、不良分子发表,严重影响用户对于评论信息的浏览,阻碍评论信息的挖掘,有效的评论分类可以帮助提高挖掘的正确性和准确率。

发明内容

本发明针对现有技术的不足,提供一种基于语义相似度的评论分类方法。

本发明方法具体包括以下步骤:

(1)网络爬虫抓取视频的标题、标签、评论等文字信息。

(2)对文字信息进行中文分词并过滤停用词。

(3)使用规则简单过滤垃圾评论。

(4)以HowNet词语相似度来扩展文本相似度并自适应更新主题特征向量来识别正常评论。

所述的网络爬虫抓取视频的标题、标签、评论等文字信息,包括如下步骤:

A)在数据库中建立一张表VideoInf,包含InfId、Url、Title、Tag这4个字段,其中InfId为主键;建立另一张表VideoCom,包含ComId,InfId,Comment这3个字段,ComId为主键,InfId为外键。

B)分析视频网站新闻频道首页的源代码,利用正则表达式获取URL保存到队列中。

C)队列中获取一个URL,如果是视频播放地址,则将源码中对应的标题、标签存入VIdeoInf表中,将评论内容及相应视频的InfId存入VideoCom表中。如果是普通页面,重复B。

所述的对文字信息进行中文分词并过滤停用词,包括如下步骤:

D)用户从VIdeoInf表中获取一个视频,将其的标题、标签、评论使用中科院ICTCLAS进行分词。

E)对分完词的序列过滤停用词。

所述的使用规则简单过滤垃圾评论,包括如下步骤:

F)首先对于评论中的链接、电话、QQ、邮箱等信息分别用WEBSITE、TELEPHONE、QQNUM、EMAIL等专有词替换。

G)分析评论语料,定义一个垃圾关键词库。计算评论中中英文字符与非规则字符的比率                                               。

H)若评论中多个词在垃圾关键词库中或者比率大于设定阈值,则认为是垃圾评论。

所述的以HowNet词语相似度来扩展文本相似度并自适应更新主题特征向量来识别正常评论,包括如下步骤:

I)根据视频的标题、标签建立视频的主题特征向量。

J)根据评论建立该条评论的特征向量。

K)根据HowNet词语相似度计算主题特征向量与评论特征向量的文本相似度,如果大于设定阈值则为正常评论,加入正常评论集合N中。

L)对集合N的词语进行统计词频,分别对每个词进行分析并更新主题特征词权重,可以分为四类,分别是主题特征词、主题特征词的语义相关词、高频词、无关词。

M)重复执行步骤K、L,直到步骤K)没有正常评论可以识别则结束,而将未识别的评论定义为垃圾评论。

本发明的有益效果:

第一,由于本发明设计了k轮识别正常评论,所以能有效提高识别正常评论的正确率。

第二,由于本发明设计了词语语义相似度来计算文本相似度,所以能更有效地提高评论与主题的相似度,识别更多的正常评论。

附图说明

图1为系统流程图;

图2为评论分类流程图;

图3为主题特征词权重更新流程图;

具体实施方式

下面结合附图,对本发明实现评论分类所采取的技术方案做进一步说明:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310110615.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top