[发明专利]基于混合模型的WEB文本情感主题识别方法有效
申请号: | 200910219161.9 | 申请日: | 2009-11-26 |
公开(公告)号: | CN101876985A | 公开(公告)日: | 2010-11-03 |
发明(设计)人: | 蔡皖东;樊娜 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 黄毅新 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于混合模型的WEB文本情感主题识别方法。属于网络信息安全领域。该方法在文本集合中进行模型训练,真实模拟不同情感倾向以及不同主题的文本语言表达模式,将情感表达与主题表达的语言方式模型化,分别产生情感和主题两类语言模型。对于需要进行分析的待处理的文本,通过将其自身模型与这两类模型进行比较,评估它与两类模型之间的相似程度,最终能够同时识别确定文本的主题和情感倾向。在统计建模中引入语言信息知识,捕捉和探寻情感及主题表达的特性和规律,充分利用语言表达的特点和习惯,建立能够同时分析识别主题和情感的混合模型,情感识别的平均准确率由现有技术的67.81%提高到81.36%。 | ||
搜索关键词: | 基于 混合 模型 web 文本 情感 主题 识别 方法 | ||
【主权项】:
一种基于混合模型的WEB文本情感主题识别方法,其特征在于包括以下步骤:(a)对训练集中的文本进行手工标注,分别标记每个文本的情感倾向和所属主题类别,根据不同情感语言表达方式的不同,估计出两类情感模型:“褒义”模型和“贬义”模型;同时根据不同主题文本的语言表达方式,分别估计各类主题语言模型;(b)对于步骤(a)建立的情感模型和主题模型分别进行参数估计,首先采用最大似然估计(MLE)方法对各个模型的参数进行估计,利用最大似然估计方法必然会引起零概率问题,因此还需要采用Jelinek-Mercer平滑方法进行数据平滑,调整概率分布的取值;(c)对于待处理的文本,计算其语言模型与两类情感模型的距离,选取距离最近的情感模型的情感倾向赋予该文本;计算与各个主题模型的距离,选取距离最近的主题模型的主题属性作为该文本的主题。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200910219161.9/,转载请声明来源钻瓜专利网。
- 上一篇:石油产品荧光族组成分析用硅胶的回收方法
- 下一篇:微波炉显示屏亮度调节电路