[发明专利]一种交通舆情感知特征提取方法有效
申请号: | 202011304311.9 | 申请日: | 2020-11-19 |
公开(公告)号: | CN113064989B | 公开(公告)日: | 2022-12-02 |
发明(设计)人: | 龚越;滕靖;刘韶杰 | 申请(专利权)人: | 龚越;滕靖;刘韶杰 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/242;G06F40/30 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
地址: | 201804 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 交通 舆情 感知 特征 提取 方法 | ||
1.一种交通舆情感知特征提取方法,特征是,包括
步骤1,主题特征提取步骤
首先,将文本数据向量化;接着,建立多种文本分类模型;然后,采集并标注交通舆情数据,得到训练数据集和测试数据集;利用训练数据集训练并标定模型参数,得到具体的主题特征提取模型;
步骤2,时空特征提取步骤,包括基于规则的交通舆情时间特征和基于空间词库的交通舆情空间特征提取两个方面;
基于规则的交通舆情时间特征提取方法为:
用数词、名词来表达时间,在语法上构成时间短语时有固定的搭配,称之为时间表达模式;确立了五种时间表达模式如下表所示:
Num表示数词,N表示时间名词
通过建立时间表达模式,将时间特征的提取问题具体化为时间表达模式的识别问题;首先对文本分词,得到一串词语序列;
采用以下策略识别时间表达模式:
Step1:从第一个词开始,与N模式的时间名词库中的词语进行比对,发现相同的词语则识别为N模式的时间表达模式,提取出作为该文本的时间特征;直到检测完最后一个词;
Step2:从第一个词开始,判断该词是否为数词,若是,则判断紧跟该数词后的单元;情形1:若是名词,则与时间名词库进行比对,发现相同的词语则识别出Num+N模式的时间表达模式,提取出作为该文本的时间特征;情形2:若是“:”或“.”或“/”符号,则继续判断紧跟该符号的单元是否为数词,若是数词则识别出Num:Num或Num.Num或Num/Num时间表达模式,提取出作为该文本时间特征;直到检测完最后一个词;
基于空间词库的交通舆情空间特征提取方法为:
交通事件的交通舆情都会蕴含空间地理信息;所述空间地理信息的表达由“国家名、省名、城市名、交通设施名、方向词、距离短语”中的一个或多个构成;识别出文本中的上述词语,并按照其表达的空间范围从大到小排列,即可得到文本的空间特征;
为了识别文本中的空间地理信息,建立五层树状空间特征词库:
词库的第一层为国家词库;
第二层为国家下的“省、自治区、州”的词库,隶属与第一层中的具体国家,是第一层词库下的子库;
第三层为城市库,隶属于第二层中的具体省、自治区、州;直辖市则直接隶属于第一层词库的子库;
第四层为“区、县、乡镇”词库,隶属于第三层词库下的子库;
第五层为交通设施词库,包括交通设施词汇,是第四层词库下的子库;
至此,上述五层树状空间特征词库建立完毕;
利用五层树状空间特征词库,将词库中的词语与网络文本中的词语比对,找出网络文本中包含的空间词汇,并按照所在层数按照从小到大排列,即可提取出网络文本中的空间地理信息;提取策略:
步骤2.1开始,输入网络文本,进行Ansj分词后进入步骤2.2;
步骤2.2匹配、记录程序
步骤2.2.1匹配所有第一层库,如有子库则进一步匹配该词第二层子库,否则递进进入匹配下一层即第二层库,直到第一层空间信息记录起来或者依次逐层递进进入最后一层,进入最后一层则将第五层空间信息记录起来;
逐层执行并将逐层的空间信息都记录起来;
步骤2.3提取记录下来的空间特征;
步骤3,情感特征提取方法
建立基于词典的交通类文本情感倾向性模型;包括:
步骤3.1建立交通类情感词典
定义seedP0={快、通畅、便利、舒适}为正面情感词种子,seedN0={慢、拥堵、车祸、混乱}为负面情感词种子;
步骤3.2计算文本情感倾向性
文本的情感倾向性依赖于名词、动词、副词以及形容词,在语法上构成情感倾向时有一定的固定搭配,称之为情感模式;确立五种常见情感模式,其中情感词是情感词典中出现的词汇,程度副词为表示程度的词汇;程度副词起到改变文本情感倾向程度的作用;
假设情感倾向性表示为Sentiment(ψi),i=1...5,分别表示五种情感模式;程度副词的权重为Weight(wd),建立如下模型计算每种情感模式的情感倾向性:
Sentiment(S)=Polarity(ws) (1)
Sentiment(DS)=Weight(wd)×Polarity(ws) (2)
Sentiment(NS)=(-1)nPolarity(ws) (3)
Sentiment(DNS)=(-1)nWeight(wd)Polarity(ws) (4)
Polarity(ws)表示情感词ws的极性,为-1或1;n为否定词的个数;只包含情感词的短语即S型情感模式,的情感极性由情感词的极性决定,计算公式为(6);
程度副词起到改变短语情感极性强弱的作用,含有程度副词的短语即DS型情感模式,需要乘以相应的权重,计算公式为(7);
否定词起到反转情感极性的作用,其权重为-1,NS型情感模式的计算公式为(8);
程度副词与否定词的位置关系决定了它们改变情感极性的强弱,对于DNS型情感模式,程度副词起到加强否定的作用,两者的效果是正向的,计算公式为(9);
对于NDS型的情感模式,否定词起到削弱程度副词的作用,两者的效果是反向的,程度副词的权重变为原来的倒数,计算公式为(10);
为了消除文本长度对文本极性的影响,便于不同文本之间情感极性的比较,应对文本的总体极性进行归一化,计算公式为:
Sentiment(T)为文本的总体倾向性,分别为正面情感模式和负面情感模式的情感极性;公式(11)的含义为正面情感度占文本总体情感度的比例,计算结果位于[0,1]区间;设定阈值0<λ1≤λ2<1,文本的情感极性判别式如下所示:
阈值根据实际应用场景设定,应尽可能地使情感极性的判别更加准确;
步骤4,演变特征提取方法步骤
建立基于词典的交通类文本情感倾向性模型:
设正面舆情计量指标为rp(t),负面舆情计量指标为rn(t);
在新闻媒体、微博上的正面新闻数和微博数之和为xp(t),转发量为yp(t);
负面新闻数和微博数之和为xn(t),转发量yn(t);
其中t为时间周期,t=1,2,…,表示在时间周期t内的统计结果;则交通舆情演变特征计量指标的计算方法为:
即用正面、负面舆情的变化率rp(t)、rn(t)作为演变特征的计量指标,以消除发文数量的影响,研究交通舆情的演变规律。
2.如权利要求1所述的提取方法,特征是,所述步骤1包括:
步骤1.1文本向量化
对文本进行分类,把文本转化成特征向量;选取词作为特征;对文本进行分词;
将文本转化为向量,选取词作为文本的特征项;每一篇文本表示为n维向量空间中的一个向量,向量中每一维对应于一个特征项,表示为:
V=(w(f1),w(f2),…,w(fn)) (1)
其中,w(fi)表示特征项fi在文本向量中的权值,表征了该特征在描述文本语义内容的能力和重要程度;
选取词作为文本的特征项,TF-IDF(Term Frequency/Inverse Document Frequency)作为每一个词的权值;计算公式为:
其中,TF(fi)为词频,是词fi在一篇文档中出现的频率,出现的频率越高,说明它对此类文档的重要程度越高;D表示语料库中的总文档数,Di表示语料库中含有词fi的文档数,称为反文档频率(Inverse Document Frequency,简称IDF),表示一个词fi出现的次数越多,通过它辨识文档类型越难;
通常在每个文本内对TF-IDF做归一化,以排除文本长度的影响,得到词fi的权重w(fi)计算公式为:
步骤1.2:文本分类和构建模型
将文本表示成向量后,文本分类问题等价于求待分类文本向量与已知的主题向量的相似程度;如果相似度高,则待分类文本与该已知主题为同一主题;
假设待分类文本向量为X=(x1,…,xn),已分类文本向量为χi=(χi1,…,χim),其中χi表示五类主题向量,
{χi|χ1=交通拥堵类,χ2=交通事故类,χ3=共享交通类,χ4=交通管控类,χ5=其它类},
利用余弦定理,建立交通舆情主题分类模型如下:
Similarity(χi)表示待分类文本X与已知主题文本χi之间的相似度,取相似度最大的χi作为X的主题类型Class(X);
在使用本模型前,标定模型参数χij;
首先融合每类训练集中的所有文本,得到五个大型文本,对应五类主题;分别对五个大型文本进行文本向量化后,得到已知分类主题的文本向量集合{χi};模型参数标定工作完成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于龚越;滕靖;刘韶杰,未经龚越;滕靖;刘韶杰许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011304311.9/1.html,转载请声明来源钻瓜专利网。