[发明专利]一种情感特征词提取系统无效
申请号: | 200910089711.X | 申请日: | 2009-07-21 |
公开(公告)号: | CN101609459A | 公开(公告)日: | 2009-12-23 |
发明(设计)人: | 陶富民;高军;王腾蛟;杨冬青 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京纪凯知识产权代理有限公司 | 代理人: | 徐 宁;关 畅 |
地址: | 100871北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 情感 特征 提取 系统 | ||
1、一种情感特征词提取系统,其特征在于:它包括特征选取模块、特征验证 模块、关系提取模块、广义情感特征词表和狭义情感特征词表;所述特征选取模 块利用文章集合中的文章内容和评论集合中的评论内容,分别提取评论内容全体 的候选情感特征词和分类的候选情感特征词;所述关系提取模块根据所述文章内 容,通过模板构建一个词与词的语义关系图;通过所述全体的候选情感特征词和 语义关系图建立广义情感特征词表;通过所述分类的候选情感特征词和语义关系 图建立狭义情感特征词表。
2、如权利要求1所述的一种情感特征词提取系统,其特征在于:所述特征选 取模块中候选情感特征词的提取方法为:利用评论集合与文章集合的词频信息差 异,用打分法选取候选情感特征词,计算方程为:
Score1(Term)=(R_DF(Term)/(N_DF(Term)+1) (1)
Score2(Term)=(R_TF(Term)/(N_TF(Term)+1) (2)
其中Score1表示通过方程(1)计算得到的分值,Score2表示通过方程(2)计算 得到的分值;Term表示词;R_DF(Term)表示词出现在所述评论集合的不同评论内 容中的次数;N_DF(Term)表示词出现在所述文章集合的不同文章内容中的次数; R_TF(Term)表示词在所述评论集合中出现的总次数;N_TF(Term)表示词在所述文 章集合中出现的总次数;之后按分值对词进行排序,选取一定数目得分较高的词 作为候选情感特征词;排序规则是先按Score1进行比较,如果Score1一样,再 按Score2进行比较。
3、如权利要求1所述的一种情感特征词提取系统,其特征在于:建立所述广 义情感特征词表时,在所述特征验证模块中,在全体的候选情感特征词中选取部 分进行正负向标注,形成基础情感特征词表,所述基础情感特征词表根据其中的 词性,分为正向表和负向表两部分;在所述语义关系图中找出基础情感特征词表 中已标注的情感特征词的所有的同位词,将这些同位词扩充入所述基础情感特征 词表中的正向表和负向表中;最后结合所述语义关系图,使用半监督学习的方法 对扩充的同位词进行倾向标注和过滤,得到所述广义情感特征词表。
4、如权利要求2所述的一种情感特征词提取系统,其特征在于:建立所述广 义情感特征词表时,在所述特征验证模块中,在所述全体的候选情感特征词中选 取部分进行正负向标注,形成基础情感特征词表,所述基础情感特征词表根据其 中的词性,分为正向表和负向表两部分;在所述语义关系图中找出基础情感特征 词表中已标注的情感特征词的所有的同位词,将这些同位词扩充入所述基础情感 特征词表中的正向表和负向表中;最后结合所述语义关系图,使用半监督学习的 方法对扩充后的正向表和负向表进行倾向标注和过滤,形成所述广义情感特征词 表。
5、如权利要求1或2或3或4所述的一种情感特征词提取系统,其特征在于: 建立所述狭义情感特征词表时,在所述特征验证模块中,针对所有的分类的候选 情感特征词,结合所述扩充后的正向表和负向表,对各类候选情感特征词进行半 监督学习的正负向判定。
6、如权利要求1或2或3或4所述的一种情感特征词提取系统,其特征在于: 所述半监督学习方法为:在语义关系图中寻找某个词的同位词,如果某个词的同 位词落在正向表中的数目大于落在负向表中的数目,并且落在正向表中的同位词 数目超过预先设定的最小阈值,那么该词的词性就标识为正向;如果某个词的同 位词落在负向表中的数目大于落在正向表中的数目,并且落在负向表中的同位词 数目超过预先设定的最小阈值,那么该词就标识为负向;如果某个词的同位词落 在正向表和落在负向表中的数目均达不到预先设定的最小阈值,则过滤掉该词。
7、如权利要求5所述的一种情感特征词提取系统,其特征在于:所述半监督 学习方法为:在语义关系图中寻找某个词的同位词,如果某个词的同位词落在正 向表中的数目大于落在负向表中的数目,并且落在正向表中的同位词数目超过预 先设定的最小阈值,那么该词的词性就标识为正向;如果某个词的同位词落在负 向表中的数目大于落在正向表中的数目,并且落在负向表中的同位词数目超过预 先设定的最小阈值,那么该词就标识为负向;如果某个词的同位词落在正向表和 落在负向表中的数目均达不到预先设定的最小阈值,则过滤掉该词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910089711.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种能小肠定位给予避孕药物的口服剂及其制备方法
- 下一篇:熔丝保持器