[发明专利]基于混合模型的WEB文本情感主题识别方法有效

申请号：	200910219161.9	申请日：	2009-11-26
公开（公告）号：	CN101876985A	公开（公告）日：	2010-11-03
发明（设计）人：	蔡皖东;樊娜	申请（专利权）人：	西北工业大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	西北工业大学专利中心 61204	代理人：	黄毅新
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于混合模型的WEB文本情感主题识别方法。属于网络信息安全领域。该方法在文本集合中进行模型训练，真实模拟不同情感倾向以及不同主题的文本语言表达模式，将情感表达与主题表达的语言方式模型化，分别产生情感和主题两类语言模型。对于需要进行分析的待处理的文本，通过将其自身模型与这两类模型进行比较，评估它与两类模型之间的相似程度，最终能够同时识别确定文本的主题和情感倾向。在统计建模中引入语言信息知识，捕捉和探寻情感及主题表达的特性和规律，充分利用语言表达的特点和习惯，建立能够同时分析识别主题和情感的混合模型，情感识别的平均准确率由现有技术的67.81％提高到81.36％。
搜索关键词：	基于混合模型 web 文本情感主题识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于混合模型的WEB文本情感主题识别方法，其特征在于包括以下步骤：(a)对训练集中的文本进行手工标注，分别标记每个文本的情感倾向和所属主题类别，根据不同情感语言表达方式的不同，估计出两类情感模型：“褒义”模型和“贬义”模型；同时根据不同主题文本的语言表达方式，分别估计各类主题语言模型；(b)对于步骤(a)建立的情感模型和主题模型分别进行参数估计，首先采用最大似然估计(MLE)方法对各个模型的参数进行估计，利用最大似然估计方法必然会引起零概率问题，因此还需要采用Jelinek-Mercer平滑方法进行数据平滑，调整概率分布的取值；(c)对于待处理的文本，计算其语言模型与两类情感模型的距离，选取距离最近的情感模型的情感倾向赋予该文本；计算与各个主题模型的距离，选取距离最近的主题模型的主题属性作为该文本的主题。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200910219161.9/，转载请声明来源钻瓜专利网。

上一篇：石油产品荧光族组成分析用硅胶的回收方法
下一篇：微波炉显示屏亮度调节电路

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于混合模型的WEB文本情感主题识别方法有效

专利文献下载