[发明专利]基于概率特征关联的舆情分析方法在审
申请号: | 201710441705.0 | 申请日: | 2017-06-13 |
公开(公告)号: | CN107239562A | 公开(公告)日: | 2017-10-10 |
发明(设计)人: | 程华;姚俊;马宇舸;房一泉 | 申请(专利权)人: | 华东理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 常州市权航专利代理有限公司32280 | 代理人: | 袁兴隆 |
地址: | 200237 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 概率 特征 关联 舆情 分析 方法 | ||
技术领域
本发明涉及一种信息处理技术领域,特别是一种基于概率特征关联的舆情分析方法。
背景技术
在线新闻信息通过公共事件的直观报道,直接反映事件的当前态势,例如美国某事件中,美国新闻媒体的报道反映了白宫对该事件的判断,对在线新闻报道的分析可以为决策提供可靠的事件态势估计。这类在线新闻信息来自人类观察,相对于传统的雷达测量信息,难以直接测量,计算机不能直接理解,对这类非结构化或半结构化的信息处理与融合是信息融合领域新的研究热点和挑战。
传统目标跟踪算法,PDA等数据关联将传感器获得的观测数据与已知目标航迹相关联并最后确定正确的观测配对。软信息融合中也需要通过数据关联实现多源融合估计,也有提出基于图形法的数据关联算法、以属性图的方式对软信息进行数据关联、提出了基于本体模型的增强型图匹配算法。但这些关联算法通常只对软信息中的事件要素,如人物、时间、目的地等设置为图节点的要素进行关联,未考虑多个软信息文本中语义信息的关联。特别是线性加权特征关联算法只将长期词典与当前特征中的相同特征词项进行关联,忽略了长期词典中当前特征同义词的影响。
发明内容
针对上述技术问题,本发明中提出了一种基于概率特征关联的舆情分析方法,基于文本信息的新闻事件态势估计中,将事件当前态势的准确估计需融合事件的长期态势。本发明以长期词典作为事件长期态势的特征表达,提出了文本信息的长期特征与当前特征关联融合的概率特征关联分析方法。由事件的长期信息抽取得到长期词典,基于特征词相似度将长期特征与当前特征进行概率关联,得到事件的全特征表达,提升对事件态势估计的融合效果,对态势估计更可靠。
为了实现根据本发明的这些目的和其它优点,提供了一种基于概率特征关联的舆情分析方法,包括以下步骤:
步骤一、收集某一新闻事件的长期信息,取长期信息中的长期特征词项组成文本信息的长期词典;
步骤二、取当前新闻文本信息的特征词项组成的当前特征集合;
步骤三、将长期词典与当前特征词项进行关联,以当前特征词项为中心、基于特征词项的相似度设置圆形关联门,获取当前特征词项关联门内的长期特征词项的特征集合以及该特征集合对应的权重向量;
步骤四、分别求步骤三中关联门内长期特征词项的词向量和当前特征词项的词向量,并求两者词向量间的关联概率;
步骤五、通过所述关联概率计算当前特征词项的最优特征权值,并生成当前特征集合对应的最优当前特征权值向量;
步骤六、将所述最优当前特征权值向量用于软传感器模型对当前新闻事件进行态势估计,得到当前新闻事件的态势融合估计。
优选的,步骤一中,使用长期词典法获取事件长期信息中的长期态势,作为用于关联融合的长期态势向量,所述长期词典由q个所述长期特征词项lwt,i构成,表示为 LDt={lwt,1,lwt,2,lwt,3…lwt,q},在向量空间模型VSM空间下抽取长期词典中的特征词项权重向量,表示为LVt={lvt,1,lvt,2,lvt,3…lvt,q},其中,lwt,i对应的权重为lvt,i。
优选的,步骤二中,t时刻所述当前特征集合由n个当前特征词项cwt,i构成,表示为 CFt={cwt,1,cwt,2,cwt,3…cwt,n},在向量空间模型VSM空间下抽取当前特征集合中的特征词项权重向量,表示为CVt={cvt,1,cvt,2,cvt,3…cvt,n},其中,cwt,i对应的权重为cvt,i。
优选的,特征词项的权重采用TF-IDF方法计算,权重表达对应特征词项在文本中的重要程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东理工大学,未经华东理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710441705.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种播放歌曲的系统
- 下一篇:舆情信息动态监控方法