[发明专利]一种情感特征词提取系统无效

申请号：	200910089711.X	申请日：	2009-07-21
公开（公告）号：	CN101609459A	公开（公告）日：	2009-12-23
发明（设计）人：	陶富民;高军;王腾蛟;杨冬青	申请（专利权）人：	北京大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京纪凯知识产权代理有限公司	代理人：	徐宁;关畅
地址：	100871北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种情感特征提取系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术主题

本发明涉及一种特征提取系统，特别是关于一种情感特征词提取系统。

背景技术

随着网络的普及，网络上的数据以指数级的速度增长。特别是Web2.0的兴起和发展，网络上用户生成内容越来越多，比如博客、评论、论坛帖子等，它们在网络中占据越来越重要的地位。用户生成的内容中除了包含很多事实性的内容之外，也包含大量与情感因素相关的内容，并且后者的影响也越来越大。比如用户在购买商品时会很自然的去网上搜索其要购买商品的相关信息，其他用户对于该商品的评论信息很可能直接影响到用户的购买。因此厂家也越来越关注于消费者对其商品的反馈，利用这些反馈信息可以用来理解用户需求和满意度，从而改善产品质量以及提高服务质量。此外，政府机关、政治团体也越来越关注网络平台的作用，例如政府会关注其政策法规在网络中的反响，关注网上的舆情信息，特别是热点事件的舆情信息。

传统的网络信息处理主要是基于事实性的文本进行处理，比如基于关键字的检索，文本的分类、聚类等，很少关注其中包含的情感信息。与传统文本处理方式不同的是，情感分析主要用来分析和挖掘用户的情感倾向，来弥补传统搜索引擎等工具的不足。在情感分析工作中，情感的特征选取不仅是进行情感分类的主要基础，还是影响情感分析结果的重要因素。与传统的分类方法不同的是，情感分析很难采用传统的基于词频等简单的统计信息来提取特征，因为情感分类所需的特征最好应该是能够直接代表情感特征词的词；而且不同主题有不同的情感特征词，比如“布什是中国人民的老朋友”和“老布什越老越糊涂”。“老”这个词在这三个地方中有三种不同的情感特征词。由于情感特征词分析的特殊性，传统文本分析方法不能满足其要求。

在情感分析中，特征选取的方法是其中的最重要的一个部分，其效果直接决定了情感分析的效果。目前的研究发现，利用机器学习的方法比直接进行人工选取的方法还要有效。现在情感的特征提取方式主要有：手动选取情感特征词，基于搜索引擎来计算少量的其它特征词和选定特征词的逐点互信息量值 (Pointwise Mutual Information，PMI)来确定；在大规模语料中，找出同义共现的模式去匹配；使用更多的种子词，使用对数似然率(log likelihood ratio， LLR)；基于字典的方法，从一些核心词典出发，利用WordNet(英文)，HowNet(中文)提供的关系去扩展。但是这些方法对评论的召回率都存在着偏低的现象，即很多评论没有对应的情感特征词去分析其情感倾向。

发明内容

针对上述问题，本发明的目的是提供一种能有效改进评论语句少、评论对象相对分散内容的情感分析效果，并且能在细化的主题中进行细致情感分析的情感特征词提取系统。

为实现上述目的，本发明采取以下技术方案：一种情感特征词提取系统，其特征在于：它包括特征选取模块、特征验证模块、关系提取模块、广义情感特征词表和狭义情感特征词表；所述特征选取模块利用文章集合中的文章内容和评论集合中的评论内容，分别提取评论内容全体的候选情感特征词和分类的候选情感特征词；所述关系提取模块根据所述文章内容，通过模板构建一个词与词的语义关系图；通过所述全体的候选情感特征词和语义关系图建立广义情感特征词表；通过所述分类的候选情感特征词和语义关系图建立狭义情感特征词表。

所述特征选取模块中候选情感特征词的提取方法为：利用评论集合与文章集合的词频信息差异，用打分法选取候选情感特征词，计算方程为：

Score1(Term)＝(R_DF(Term)/(N_DF(Term)+1) (1)

Score2(Term)＝(R_TF(Term)/(N_TF(Term)+1) (2)

其中Score1表示通过方程(1)计算得到的分值，Score2表示通过方程(2)计算得到的分值；Term表示词；R_DF(Term)表示词出现在所述评论集合的不同评论内容中的次数；N_DF(Term)表示词出现在所述文章集合的不同文章内容中的次数； R_TF(Term)表示词在所述评论集合中出现的总次数；N_TF(Term)表示词在所述文章集合中出现的总次数；之后按分值对词进行排序，选取一定数目得分较高的词作为候选情感特征词；排序规则是先按Score1进行比较，如果Score1一样，再按Score2进行比较。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学，未经北京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200910089711.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种能小肠定位给予避孕药物的口服剂及其制备方法
下一篇：熔丝保持器

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种情感特征词提取系统无效

专利文献下载