[发明专利]基于语义文本的大宗农产品投资者恐慌情绪测度方法在审
申请号: | 201811009600.9 | 申请日: | 2018-08-30 |
公开(公告)号: | CN109145302A | 公开(公告)日: | 2019-01-04 |
发明(设计)人: | 孙晓;郑中华;张波;胡淦 | 申请(专利权)人: | 南京都宁大数据科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 沈尚林 |
地址: | 210000 江苏省南京市江宁*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 测度 恐慌情绪 情绪 语义 文本信息 预处理 农产品市场 情绪关键词 判定规则 农产品 判定 采集 互联网 发布 分析 | ||
1.基于语义文本的大宗农产品投资者恐慌情绪测度方法,包括以下步骤:
(1)投资文本信息采集:通过建立投资文本信息库,采用网络爬虫的形式从互联网各大宗农产品投资论坛、博客中采集相关文本内容;
(2)文本信息预处理:投资文本信息库建立后,需要对文本信息进行预处理,预处理包括断句、分词,情绪关键词提取,为后续的语义情绪分析做准备;
(3)语义情绪分析:对步骤(2)提取到的情绪关键词进行情绪值计算,进而得到整个文本的情绪值;
所述情绪值由情绪极性和情绪强度构成:
所述情绪极性按情绪倾向分为正负,其中积极乐观情绪和中性情绪的情绪极性为“+”,消极恐慌情绪的情绪极性为“-”;
所述情绪强度由具体的情绪关键词按照表1的赋值规则取值:
表1:情绪关键词的赋值规则
通过表1的赋值规则获得文本中每个情绪关键词的情绪值,进而将文本中所有情绪关键词的情绪值进行加总求和并算出均值,得到整个文本的情绪值,计算公式如下:
其中E(T)表示一个文本篇章的情绪值,Si表示文本中第i个情绪关键词,E(Si)表示第i个情绪关键词的情绪值,n表示文本中情绪关键词的数量;
(4)文本情绪倾向判定:
表2:文本情绪倾向判定规则
文本情绪值 文本情绪倾向 正 积极乐观或中性 负 消极恐慌
由步骤(3)所得到的文本情绪值与表2的文本情绪倾向判定规则进行对比,判定整个文本是否为消极恐慌情绪。
2.根据权利要求1所述的大宗农产品投资者恐慌情绪测度方法,其特征在于,在步骤(1)中,所述投资文本信息采集具体包括以下步骤:
(5)确定目标主题和目标采集网页链接;根据用户输入的大宗农产品投资者投资评论关键词作为目标主题,自动搜索获取相关的论坛、博客网址作为目标采集网站;在目标采集网站包含的多个网页链接中,确定所述目标主题对应的目标网页链接;
(6)对确定的目标采集网页链接进行过滤处理;在确定的目标采集网页链接中,可能包含有重复、无效的网页链接,需要进行过滤处理;
(7)对过滤处理后的目标网页链接进行网页内容下载,根据网页内容中的HTML标签,定位需要采集的文章对应的URL,根据需要采集的文章对应的URL,对文章对应的文本信息进行下载并保存到投资文本信息库。
3.根据权利要求1所述的大宗农产品投资者恐慌情绪测度方法,其特征在于,在步骤(2)中,所述文本信息预处理具体包括以下步骤:
(8)断句处理:以中文句号或其他标点符号为断句节点,在进行语义情绪分析前需要对采集到的文本信息进行断句处理;
(9)分词和词性标注:对断句后的文本进行分词,分词过程中采用的是Python3.0分词软件,分词的依据是中文语料词典,采用的是开源的HanLP自然语言处理包,在分词的过程中自动完成词性标注,分词的结果为各个词组;
(10)提取情绪关键词构建情绪词典:为方便情绪关键词提取,需要构建情绪词典,通过对步骤(9)中分词和词性标注获取的所有文档情绪词组,统计这些词组,获取在网络数据中出现词频最高的词组作为情绪关键词;将提取的情绪关键词加入情绪词典,并且后续不断扩充;对文本中分词后的词组与情绪词典中的词组进行比对,比对成功的即为情绪关键词,将情绪关键词进行提取;
所述情绪词典构建采用word2vector模型中CBOW,包括输入层、投影层、输出层;其中输入层为context(w)中2c个词向量,V(Context(w)1)、V(Context(w)2)…V(Context(w)2c);投影层则是输入层的2c个词向量的累加之和,输出层对应一棵二叉树,它是以文本中出现过的词作为叶子节点,以各词在文本中出现的次数当权值构造出来的Huffman树;输入层、投影层和输出层之间使用矩阵向量运算方法,输出层中的叶子节点由于分支都会产生一个概率,这些概率相乘就可以得到相关词组的概率,其中由上下文预测一个词组的概率的计算方法如下:
P(wi|Context)=P(wi|wi-k,wi-k+1…,wi-1,wi+1,…,wi+k)
上式中,P为词组概率,wi表示文本中的某个词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京都宁大数据科技有限公司,未经南京都宁大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811009600.9/1.html,转载请声明来源钻瓜专利网。