[发明专利]一种情感特征词提取系统无效

专利信息
申请号: 200910089711.X 申请日: 2009-07-21
公开(公告)号: CN101609459A 公开(公告)日: 2009-12-23
发明(设计)人: 陶富民;高军;王腾蛟;杨冬青 申请(专利权)人: 北京大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京纪凯知识产权代理有限公司 代理人: 徐 宁;关 畅
地址: 100871北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 情感 特征 提取 系统
【权利要求书】:

1、一种情感特征词提取系统,其特征在于:它包括特征选取模块、特征验证 模块、关系提取模块、广义情感特征词表和狭义情感特征词表;所述特征选取模 块利用文章集合中的文章内容和评论集合中的评论内容,分别提取评论内容全体 的候选情感特征词和分类的候选情感特征词;所述关系提取模块根据所述文章内 容,通过模板构建一个词与词的语义关系图;通过所述全体的候选情感特征词和 语义关系图建立广义情感特征词表;通过所述分类的候选情感特征词和语义关系 图建立狭义情感特征词表。

2、如权利要求1所述的一种情感特征词提取系统,其特征在于:所述特征选 取模块中候选情感特征词的提取方法为:利用评论集合与文章集合的词频信息差 异,用打分法选取候选情感特征词,计算方程为:

Score1(Term)=(R_DF(Term)/(N_DF(Term)+1)    (1)

Score2(Term)=(R_TF(Term)/(N_TF(Term)+1)    (2)

其中Score1表示通过方程(1)计算得到的分值,Score2表示通过方程(2)计算 得到的分值;Term表示词;R_DF(Term)表示词出现在所述评论集合的不同评论内 容中的次数;N_DF(Term)表示词出现在所述文章集合的不同文章内容中的次数; R_TF(Term)表示词在所述评论集合中出现的总次数;N_TF(Term)表示词在所述文 章集合中出现的总次数;之后按分值对词进行排序,选取一定数目得分较高的词 作为候选情感特征词;排序规则是先按Score1进行比较,如果Score1一样,再 按Score2进行比较。

3、如权利要求1所述的一种情感特征词提取系统,其特征在于:建立所述广 义情感特征词表时,在所述特征验证模块中,在全体的候选情感特征词中选取部 分进行正负向标注,形成基础情感特征词表,所述基础情感特征词表根据其中的 词性,分为正向表和负向表两部分;在所述语义关系图中找出基础情感特征词表 中已标注的情感特征词的所有的同位词,将这些同位词扩充入所述基础情感特征 词表中的正向表和负向表中;最后结合所述语义关系图,使用半监督学习的方法 对扩充的同位词进行倾向标注和过滤,得到所述广义情感特征词表。

4、如权利要求2所述的一种情感特征词提取系统,其特征在于:建立所述广 义情感特征词表时,在所述特征验证模块中,在所述全体的候选情感特征词中选 取部分进行正负向标注,形成基础情感特征词表,所述基础情感特征词表根据其 中的词性,分为正向表和负向表两部分;在所述语义关系图中找出基础情感特征 词表中已标注的情感特征词的所有的同位词,将这些同位词扩充入所述基础情感 特征词表中的正向表和负向表中;最后结合所述语义关系图,使用半监督学习的 方法对扩充后的正向表和负向表进行倾向标注和过滤,形成所述广义情感特征词 表。

5、如权利要求1或2或3或4所述的一种情感特征词提取系统,其特征在于: 建立所述狭义情感特征词表时,在所述特征验证模块中,针对所有的分类的候选 情感特征词,结合所述扩充后的正向表和负向表,对各类候选情感特征词进行半 监督学习的正负向判定。

6、如权利要求1或2或3或4所述的一种情感特征词提取系统,其特征在于: 所述半监督学习方法为:在语义关系图中寻找某个词的同位词,如果某个词的同 位词落在正向表中的数目大于落在负向表中的数目,并且落在正向表中的同位词 数目超过预先设定的最小阈值,那么该词的词性就标识为正向;如果某个词的同 位词落在负向表中的数目大于落在正向表中的数目,并且落在负向表中的同位词 数目超过预先设定的最小阈值,那么该词就标识为负向;如果某个词的同位词落 在正向表和落在负向表中的数目均达不到预先设定的最小阈值,则过滤掉该词。

7、如权利要求5所述的一种情感特征词提取系统,其特征在于:所述半监督 学习方法为:在语义关系图中寻找某个词的同位词,如果某个词的同位词落在正 向表中的数目大于落在负向表中的数目,并且落在正向表中的同位词数目超过预 先设定的最小阈值,那么该词的词性就标识为正向;如果某个词的同位词落在负 向表中的数目大于落在正向表中的数目,并且落在负向表中的同位词数目超过预 先设定的最小阈值,那么该词就标识为负向;如果某个词的同位词落在正向表和 落在负向表中的数目均达不到预先设定的最小阈值,则过滤掉该词。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910089711.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top