[发明专利]一种基于语义块的情感特征生成算法无效
申请号: | 201010288855.0 | 申请日: | 2010-09-21 |
公开(公告)号: | CN102411562A | 公开(公告)日: | 2012-04-11 |
发明(设计)人: | 朱俭 | 申请(专利权)人: | 朱俭;北京市通州区科学技术协会;北京千松科技发展有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100089 北京市西三环北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 情感 特征 生成 算法 | ||
所属技术领域
本发明是一种基于语义块的情感特征生成算法,属于中文文本情感分析领域。
背景技术
随着网络相关技术的高速发展,互联网已经逐步成为人们获取信息的重要来源和表达自己观点的平台,迅速增长的网上评论产生大量数据,于是针对特定需求,组织相关数据和获取有用信息,成为当前信息科学与技术领域面临的一个重大的挑战。文本情感分类是指通过挖掘和分析文本中的观点、意见和看法等主观信息,对文本的情感倾向做出类别判断。它可广泛用于社会舆情分析、产品质量评价、影视评论等方面。
一篇文本表现为一个由文字和标点组成的字符串。字或字符组成词,词组成短语,然后再形成句子、段落和篇章。因此对文本情感分析,研究者们一般都从判断词语的情感倾向性开始。CN101609459A号发明专利公告公布了一种情感特征词提取系统,该系统利用tf(词语在文章中出现的次数)和df(词语出现在所评论集合的不同评论内容中的次数)等参数的比值来选取一定数目得分较高的词作为广义情感特征词。然后根据语义关系图中词的同位词来建立狭义情感特征词表。由于该技术依赖于中文分词技术,这必然存在分词中的名词性主体识别、分词规范不统一等问题,直接影响情感特征的质量。
本发明提出一种基于语义块的情感特征生成算法。语义块不一定是字、词、短语、句子等自然语言单位,它既可以看作语法单位也可是语义单位。通过使用语义块替代传统词典,能够更加准确的体现文本中的情感特征。
发明内容
本发明的目的是提供一种新的情感特征生成算法,情感特征用语义块表示,语义块是根据文本上下文的统计结果,按策略选出最佳拆分结果。
本发明的技术方案如下:
通过后缀树Suffix-tree(PAT tree)结构查找独立的语义单位或语法单位,根据全部文本集合中上下文的统计结果,按策略选出最佳拆分结果。以两段中文字符串S1、S2为例,查找语义块操作即为查找S1和S2的最长公共字串。
S1:“第一次去电影院看电影,3D效果不明显,胜在搞笑。”
S1:“相当幽默的影片,最搞笑的要属那两只狐狸。”
如果使用分词技术:
S1:第一/m次/qv去/vf电影院/n看/v电影/n,/wd 3D/x效果/n不/d明显/a,/wd胜/v在/p搞/v笑/v。/wj
S2:相当/d幽默/a的/ude1影片/n,/wd最/d搞/v笑/v的/ude1要/v属/v那/rzv两/m只/q狐狸/n。/wj
很明显,将独立的语义单位拆分开了。如果使用后缀树来处理这两段字串。算法简要描述如下:
将S1和S2拼接作为字符串压入后缀树,找到最深的非叶节点。这个深是指从树根节点所经历过的字符个数,最深非叶节点所经历的字符串起来就是最长重复子串。需要找到非叶节点,是因为既然是要找到S1与S2重复的公共部分,当然叶节点个数要>=2。原理是:如果T在S中重复了两次,则S应有两个后缀以T为前缀,重复次数就自然统计出来了。
此外,采用Patricia Tree(PAT tree)存储结构来降低存储空间的复杂度。PAT tree是后缀树结构的一种特殊形式,采用半无限长字串(semi-infinite string)作为字符串的查找结构。简单来说就是一种压缩存储的二叉树结构,PAT tree在字符串的子串匹配上有着非常优异的表现。
字符串S1、S2使用语义块概念来切分独立的语义单位,如下表示:
S1:第一次去电影院看电影,3D效果不明显,胜在搞笑。
S2:相当幽默的影片,最搞笑的要属那两只狐狸。
本发明具有如下优点:
1.本发明提出情感特征基于语义块的思想,克服了传统算法采用中文分词的缺点,避免了分词规范不统一、切分歧义消解和未登录词的识别问题,算法得到的语义块是含有独立的语义或独立的语法单位。
2.本发明提出的算法简单易于实现。
3.本发明提出算法获得的情感特征结果,优于传统的分词工具。
附图说明
图1是本发明中采用语义块作为情感特征和中文分词的取得的特征数量对比
图2是本发明中采用语义块作为情感特征和中文分词的频率对比
图3是本发明采用语义块作为情感特征和中文分词的曲线图对比
下面结合附图和实施例对本发明专利进一步说明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于朱俭;北京市通州区科学技术协会;北京千松科技发展有限公司,未经朱俭;北京市通州区科学技术协会;北京千松科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010288855.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种红外线LED感应灯
- 下一篇:LED发光模组