[发明专利]倾向性分析的蚁群文本组合的处理方法无效
申请号: | 201010200727.6 | 申请日: | 2010-06-13 |
公开(公告)号: | CN101859327A | 公开(公告)日: | 2010-10-13 |
发明(设计)人: | 李建华;张月国;李生红;李燕;李海燕 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海交达专利事务所 31201 | 代理人: | 王锡麟;王桂忠 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 倾向性 分析 文本 组合 处理 方法 | ||
技术领域
本发明涉及的是一种互联网技术领域的信息处理方法,具体是一种倾向性分析的蚁群文本组合的处理方法。
背景技术
随着网络信息技术的飞速发展,互联网成为最重要的大众传播媒体之一,正在全方位、深层次地改变人们的生活方式,同时也为社会舆论和大众文化的传播带来了潜在的安全问题,如在新疆乌鲁木齐“7.5”打砸抢烧严重暴力犯罪事件中,境内境外不法分子正是利用互联网进行虚假信息传播,颠倒是非,使不明真相者误信其说,从而引起大规模群众聚集游行,导致严重社会后果,因此互联网舆情信息处理技术逐渐成为专家学者研究的热点。在众多的信息媒介之中,文本信息占据着最重要的地位,文本舆情信息分析研究取得了一定的进展。倾向性分析是舆情分析的内容之一,文本倾向性分析可以把文本信息分为正面、负面和中立面三个方面。在已有的舆情分析方法中,一般是将网络上获取的文本先进行内容上的区别归并,而后再单独进行倾向性分析。
现有技术通过支持向量机对文本向量构造超平面,利用最小二乘法对得到的分类超平面进行拟合,找出最优分类超平面,实现文本分类,这种方法需要构建超平面和找到最优分类超平面,对待分类文本特征要求较高。
经过对现有技术的文献检索发现,进一步检索发现,中国专利文献号CN1936887A,记载了一种“基于类别概念空间的自动文本分类方法”,该技术将文本分类分为训练和分类两个阶段,分别建立训练集类别概念空间的词语向量表示和待分类文档向量数据,依据待分类文档向量中各分量的大小直接获得待分类文档的所属类别,此方法中用了大部分精力构造类别概念空间的词语向量表示,但是并没有充分挖掘类别概念空间的词语向量表示的处理文本信息的能力,不涉及倾向性分析,不能直接适用于舆情信息的分析和处理。
由上述可以看出,针对舆情信息分析,现有技术中有以下可以改进:第一就是将文本内容进行智能分类和倾向性分析作为整体处理,这对于处理具有突发性极强特点的海量舆情信息而言是有必要的,整体处理的优势是效率高;第二是提高文本内容组合方法的精确度和效率,已经被应用的文本分类方法有基于决策树、基于统计、基于粗糙集、基于距离、基于神经网络、基于遗传算法等诸多分类方法,但这些方法或者仅针对固定特征的文本,或者本身尚存在不足。
发明内容
本发明针对现有技术存在的上述不足,提供一种倾向性分析的蚁群文本组合的处理方法,本发明将倾向性分析放在文本组合的处理过程之中,同时对文本进行组合处理,在完成文本类别智能归并的同时也做到了倾向性分析,提高文本舆情分析效率和组合的精确度。
本发明是通过以下技术方案实现的,本发明包括以下步骤:
第一步,对标准库作倾向性分析:对标准库的特征词集作倾向性分析,每一类别均分为正面、负面和中立面三个特征子类,即将原A类别的特征词集分为A+、A-和Ao三个子类,原B类别的特征词集分为B+、B-和Bo三个子类,以此论推。
所述的标准库,是用来训练蚂蚁的特征词库,里面包含了用来判断话题种类的特征词。
所述的特征词集,是由能表征文本内容的特征词构成的集合。
所述的特征子类是指:正面、负面和中立面,是指特征词的肯定、否定和中立或者褒扬、贬损和中立的特性。
所述的倾向性分析,即对主观性特征词所表示的倾向性意见做出肯定/否定/中立或者褒扬/贬损/中立的判断,利用已有的褒贬义词典判定词典中已有的特征词的倾向性,利用同义词词库判定与褒贬义词典中同义词的倾向性,利用语义分析技术判定其他未知词及呈现多倾向性特征词的倾向性。
所述的特征子类,包括倾向性特征词和原类别主题词,即除了包括观点性的倾向性特征词外,还包括每类的主题相关特征词。
第二步,初始化参数并将信息装入蚂蚁:初始化文本处理方法中用到的阈值参数,并将A+、A-和Ao以及B+、B-和Bo等特征子类分别装入蚂蚁,每只蚂蚁只携带一个子类的特征词,蚂蚁个数大于标准库中子类别个数。
所述蚂蚁装入的信息,包括本蚂蚁所携带的子类别号和子类别特征词集。
第三步,应用蚁群算法进行处理
1)将待处理文本经过分词、特征选择与提取等预处理后散置在平面上,让蚂蚁在这些节点上爬行;
2)计算蚂蚁当前所在文本特征词向量与其携带特征词向量的相似度。每只蚂蚁对当前节点的处理是,若相似度大于阈值α,则对该节点做出类别标记;若相似度不大于阈值α,则进入选择下一个爬行节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010200727.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种条码解码芯片
- 下一篇:一种对海量文件进行存取的方法及装置