[发明专利]基于堆叠降噪自编码机的广告博文识别方法有效
| 申请号: | 201710786627.8 | 申请日: | 2017-09-04 |
| 公开(公告)号: | CN107679031B | 公开(公告)日: | 2021-01-05 |
| 发明(设计)人: | 黄青松;李帅彬;栾杰;郎冬冬;郭勃;刘骊;付晓东;宋莉娜 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/30;G06F40/289;G06F16/35 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 650093 云*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 堆叠 编码 广告 识别 方法 | ||
1.基于堆叠降噪自编码机的广告博文识别方法,其特征在于:具体步骤如下:
Step1、首先爬取微博语料,通过人工标注语料得到训练集语料和测试集语料,其次对语料进行预处理;
Step2、构建微博文本特征向量表征博文,然后将微博文本特征向量放入最大熵分类中训练建模,得到基于微博文本特征向量的广告博文识别模型;
Step2.1、首先使用word2vec对微博文本进行处理,得到微博文本向量;首先使用word2vec对文本进行处理,借助word2vec在语义信息表征的优越性把文本中每个词转化为向量表示,然后把博文中每个词的向量中对应的维度累加并除以词的个数,最后得到博文的向量表示,博文的向量维度与词的向量维度相同;
Step2.2、对Step2.1中得到的微博文本向量使用堆叠降噪自编码机进行特征选择,得到不同维度的微博文本特征向量FV1;
Step2.3、将Step2.2中得到的不同维度的微博文本特征向量FV1放入最大熵分类中训练建模;
Step2.4、用测试集语料测试不同维度的微博文本特征向量模型,得到最优维度模型M1;
Step3、构建人工定义特征向量表征博文,然后将人工定义特征向量放入最大熵分类中训练建模,得到基于人工定义特征向量的广告博文识别模型;
Step3.1、对广告博文进行分析定义特征,然后对定义的特征进行抽取获得人工定义的特征;
依据对微博文本分析补充一些特征,补充的博文特征包括:博文的转发总数、博文的评论总数、转发数与评论数的比值、博文的类型、博文的情感倾向,然后根据定义的特征抽取并融合得到初步的特征向量;
特征定义之后需要对数据进行特征抽取,对不能直接量化的特征描述如下:
(1)昵称复杂度
昵称复杂度主要表征的是微博用户昵称的复杂程度,微博用户昵称允许输入字母、数字、汉字、特殊字符这四种字符,对这四种字符设立权重并计算四种字符在昵称中所出现的次数,将四种字符的权重与出现次数相乘并求和作为用户的昵称复杂度;
其中NC表示昵称复杂度,i表示字符编号,wi表示字符的权重,ti表示型字符在用户昵称中出现的次数;
(2)博文情感
博文情感使用博文的情感倾向来表示,正面:1,负面:0,通过工具包构建情感分析模型,将模型分析出来的值作为博文的情感特征值;
最后,将抽取的特征进行融合得到初步的特征向量;
Step3.2、对Step3.1中得到的人工特征向量使用堆叠降噪自编码机进行特征选择,得到不同维度的人工定义特征向量FV2;
Step3.3、将Step3.2中得到不同维度的人工定义特征向量放入最大熵分类方法中训练模型;
Step3.4、用测试集语料测试不同维度的人工定义特征向量模型,得到最优维度模型M2;
Step4、基于Step2中的微博文本特征向量和Step3中的人工定义特征向量构建组合特征向量表征博文,然后将组合特征向量放入最大熵分类中训练建模,得到基于组合特征向量的广告博文识别模型;
Step5、对Step2-Step4中得到的广告博文识别模型进行评估,根据实验结果选择最终的模型,依据此模型来识别广告博文。
2.根据权利要求1所述的基于堆叠降噪自编码机的广告博文识别方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、首先人工编写爬虫程序,爬取微博得到微博语料;
Step1.2、把已爬取的微博语料,经过过滤、去重得到不重复的微博语料,并把微博语料存放到数据库中;
Step1.3、对数据库中的语料进行人工标注得到训练集和测试集,并对语料进行分词、去停用词的预处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710786627.8/1.html,转载请声明来源钻瓜专利网。





