[发明专利]基于堆叠降噪自编码机的广告博文识别方法有效

专利信息
申请号: 201710786627.8 申请日: 2017-09-04
公开(公告)号: CN107679031B 公开(公告)日: 2021-01-05
发明(设计)人: 黄青松;李帅彬;栾杰;郎冬冬;郭勃;刘骊;付晓东;宋莉娜 申请(专利权)人: 昆明理工大学
主分类号: G06F40/126 分类号: G06F40/126;G06F40/30;G06F40/289;G06F16/35
代理公司: 暂无信息 代理人: 暂无信息
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 堆叠 编码 广告 识别 方法
【说明书】:

发明涉及基于堆叠降噪自编码机的广告博文识别方法,属于自然语言处理技术领域。首先爬取微博数据,通过人工标注得到训练集和测试集语料。其次,对广告博文分析构建微博的文本特征向量表示、人工定义的特征向量表示,再使用堆叠降噪自编码机对两种特征向量进行特征选择,获得处理后的两种特征向量,将这两种特征向量放入最大熵中,分别得到基于文本特征向量和基于人工定义特征向量的最优广告识别模型。然后,把以上两个最优模型的特征向量进行组合得到组合特征向量,再得到基于组合特征向量的广告识别模型。最后,找出分类效果最好的模型识别广告博文。本发明解决了特征冗余的问题,提高了模型的识别率,降低了应用的难度。

技术领域

本发明涉及基于堆叠降噪自编码机的广告博文识别方法,属于自然语言处理技术领域,微博广告识别。

背景技术

广告博文由专业人士编写,内容分散,形式多种多样,很难以通过统计筛选等简单的方法将其识别、去除。广告博文不仅影响用户体验,还对基于微博的相关研究(如舆情分析、意见领袖挖掘、话题发现等)产生不利影响。目前国内外关于广告博文的去除主要有以下几种方法。通过对广告博文进行分析,确定广告博文拥有的特性,将各个特性值相加并设定阈值来过滤广告博文。使用文本数据作为特征,采用监督学习的方式构建SVM分类模型进行广告博文的识别;然而这种方式在建立模型未考虑博主社会关系方面的特征。从博主方面出发定义特征,在原有的特征基础上引入博主“主题”特征,实验证明在引入博主“主题”特征之后广告博文识别模型准确率有所提高。但上述方法在构建模型时都没有对特征进行选择,使用的特征或多或少存在着冗余的问题。从而产生了参考特征工程中现有的特征选择方法(主要为机器学习方法)构建自己的特征选择方法,并将选择后的特征用于构建微博反垃圾模型,实验表明相比于方法的选择,特征选择对模型的识别效果更为重要。

发明内容

针对上述问题,本发明提供了基于堆叠降噪自编码机的广告博文识别方法,解决特征冗余的问题,提高模型的识别率,降低应用的难度。

本发明的技术方案是:基于堆叠降噪自编码机的广告博文识别方法,所述基于堆叠降噪自编码机的广告博文识别方法的具体步骤如下:

Step1、首先爬取微博语料,通过人工标注语料得到训练集和测试集,其次对语料进行预处理;

Step2、构建微博文本特征向量表征博文,然后将特征向量放入最大熵分类中训练建模,得到基于微博文本特征向量的广告博文识别模型;

Step3、构建人工定义特征向量表征博文,然后放入最大熵分类中训练建模,得到基于人工定义特征向量的广告博文识别模型;

Step4、构建组合特征向量表征博文,然后放入最大熵分类中训练建模,得到基于组合特征向量的广告博文识别模型;

Step5、对得到的广告识别模型评估,根据实验结果选择最终的模型,依据此模型识别广告博文。

作为本发明的优选方案,所述步骤Step1的具体步骤为:

Step1.1、首先人工编写爬虫程序,爬取微博得到微博语料;

Step1.2、把已爬取的微博语料,经过过滤、去重得到不重复的微博语料,并把微博语料存放到数据库中;

本发明考虑到爬取的微博语料可能存在重复博文,这些博文增加了工作量,而没有太大意义,所以需要过滤、去重,得到不重复的微博博文语料,存放在数据库是为了能方便数据的管理和使用。

Step1.3、对数据库中的语料进行人工标注得到训练集和测试集,并对语料进行分词、去停用词相关的预处理工作。

本发明考虑到直接将文本切分为多个字符组成的字符串形式,会造成原文本中字、词、段落之间语言学信息的丢失。所以对微博语料进行预处理工作,其中包括中文分词、去停用词。方便后续工作的进行。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710786627.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top