[发明专利]基于语义文本的大宗农产品投资者恐慌情绪测度方法在审

专利信息
申请号: 201811009600.9 申请日: 2018-08-30
公开(公告)号: CN109145302A 公开(公告)日: 2019-01-04
发明(设计)人: 孙晓;郑中华;张波;胡淦 申请(专利权)人: 南京都宁大数据科技有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京轻创知识产权代理有限公司 11212 代理人: 沈尚林
地址: 210000 江苏省南京市江宁*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 测度 恐慌情绪 情绪 语义 文本信息 预处理 农产品市场 情绪关键词 判定规则 农产品 判定 采集 互联网 发布 分析
【权利要求书】:

1.基于语义文本的大宗农产品投资者恐慌情绪测度方法,包括以下步骤:

(1)投资文本信息采集:通过建立投资文本信息库,采用网络爬虫的形式从互联网各大宗农产品投资论坛、博客中采集相关文本内容;

(2)文本信息预处理:投资文本信息库建立后,需要对文本信息进行预处理,预处理包括断句、分词,情绪关键词提取,为后续的语义情绪分析做准备;

(3)语义情绪分析:对步骤(2)提取到的情绪关键词进行情绪值计算,进而得到整个文本的情绪值;

所述情绪值由情绪极性和情绪强度构成:

所述情绪极性按情绪倾向分为正负,其中积极乐观情绪和中性情绪的情绪极性为“+”,消极恐慌情绪的情绪极性为“-”;

所述情绪强度由具体的情绪关键词按照表1的赋值规则取值:

表1:情绪关键词的赋值规则

通过表1的赋值规则获得文本中每个情绪关键词的情绪值,进而将文本中所有情绪关键词的情绪值进行加总求和并算出均值,得到整个文本的情绪值,计算公式如下:

其中E(T)表示一个文本篇章的情绪值,Si表示文本中第i个情绪关键词,E(Si)表示第i个情绪关键词的情绪值,n表示文本中情绪关键词的数量;

(4)文本情绪倾向判定:

表2:文本情绪倾向判定规则

文本情绪值文本情绪倾向
积极乐观或中性
消极恐慌

由步骤(3)所得到的文本情绪值与表2的文本情绪倾向判定规则进行对比,判定整个文本是否为消极恐慌情绪。

2.根据权利要求1所述的大宗农产品投资者恐慌情绪测度方法,其特征在于,在步骤(1)中,所述投资文本信息采集具体包括以下步骤:

(5)确定目标主题和目标采集网页链接;根据用户输入的大宗农产品投资者投资评论关键词作为目标主题,自动搜索获取相关的论坛、博客网址作为目标采集网站;在目标采集网站包含的多个网页链接中,确定所述目标主题对应的目标网页链接;

(6)对确定的目标采集网页链接进行过滤处理;在确定的目标采集网页链接中,可能包含有重复、无效的网页链接,需要进行过滤处理;

(7)对过滤处理后的目标网页链接进行网页内容下载,根据网页内容中的HTML标签,定位需要采集的文章对应的URL,根据需要采集的文章对应的URL,对文章对应的文本信息进行下载并保存到投资文本信息库。

3.根据权利要求1所述的大宗农产品投资者恐慌情绪测度方法,其特征在于,在步骤(2)中,所述文本信息预处理具体包括以下步骤:

(8)断句处理:以中文句号或其他标点符号为断句节点,在进行语义情绪分析前需要对采集到的文本信息进行断句处理;

(9)分词和词性标注:对断句后的文本进行分词,分词过程中采用的是Python3.0分词软件,分词的依据是中文语料词典,采用的是开源的HanLP自然语言处理包,在分词的过程中自动完成词性标注,分词的结果为各个词组;

(10)提取情绪关键词构建情绪词典:为方便情绪关键词提取,需要构建情绪词典,通过对步骤(9)中分词和词性标注获取的所有文档情绪词组,统计这些词组,获取在网络数据中出现词频最高的词组作为情绪关键词;将提取的情绪关键词加入情绪词典,并且后续不断扩充;对文本中分词后的词组与情绪词典中的词组进行比对,比对成功的即为情绪关键词,将情绪关键词进行提取;

所述情绪词典构建采用word2vector模型中CBOW,包括输入层、投影层、输出层;其中输入层为context(w)中2c个词向量,V(Context(w)1)、V(Context(w)2)…V(Context(w)2c);投影层则是输入层的2c个词向量的累加之和,输出层对应一棵二叉树,它是以文本中出现过的词作为叶子节点,以各词在文本中出现的次数当权值构造出来的Huffman树;输入层、投影层和输出层之间使用矩阵向量运算方法,输出层中的叶子节点由于分支都会产生一个概率,这些概率相乘就可以得到相关词组的概率,其中由上下文预测一个词组的概率的计算方法如下:

P(wi|Context)=P(wi|wi-k,wi-k+1…,wi-1,wi+1,…,wi+k)

上式中,P为词组概率,wi表示文本中的某个词。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京都宁大数据科技有限公司,未经南京都宁大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811009600.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top