[发明专利]基于混合模型的WEB文本情感主题识别方法有效

专利信息
申请号: 200910219161.9 申请日: 2009-11-26
公开(公告)号: CN101876985A 公开(公告)日: 2010-11-03
发明(设计)人: 蔡皖东;樊娜 申请(专利权)人: 西北工业大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 西北工业大学专利中心 61204 代理人: 黄毅新
地址: 710072 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于混合模型的WEB文本情感主题识别方法。属于网络信息安全领域。该方法在文本集合中进行模型训练,真实模拟不同情感倾向以及不同主题的文本语言表达模式,将情感表达与主题表达的语言方式模型化,分别产生情感和主题两类语言模型。对于需要进行分析的待处理的文本,通过将其自身模型与这两类模型进行比较,评估它与两类模型之间的相似程度,最终能够同时识别确定文本的主题和情感倾向。在统计建模中引入语言信息知识,捕捉和探寻情感及主题表达的特性和规律,充分利用语言表达的特点和习惯,建立能够同时分析识别主题和情感的混合模型,情感识别的平均准确率由现有技术的67.81%提高到81.36%。
搜索关键词: 基于 混合 模型 web 文本 情感 主题 识别 方法
【主权项】:
一种基于混合模型的WEB文本情感主题识别方法,其特征在于包括以下步骤:(a)对训练集中的文本进行手工标注,分别标记每个文本的情感倾向和所属主题类别,根据不同情感语言表达方式的不同,估计出两类情感模型:“褒义”模型和“贬义”模型;同时根据不同主题文本的语言表达方式,分别估计各类主题语言模型;(b)对于步骤(a)建立的情感模型和主题模型分别进行参数估计,首先采用最大似然估计(MLE)方法对各个模型的参数进行估计,利用最大似然估计方法必然会引起零概率问题,因此还需要采用Jelinek-Mercer平滑方法进行数据平滑,调整概率分布的取值;(c)对于待处理的文本,计算其语言模型与两类情感模型的距离,选取距离最近的情感模型的情感倾向赋予该文本;计算与各个主题模型的距离,选取距离最近的主题模型的主题属性作为该文本的主题。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200910219161.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top