[发明专利]基于语义文本的大宗农产品投资者恐慌情绪测度方法在审

申请号：	201811009600.9	申请日：	2018-08-30
公开（公告）号：	CN109145302A	公开（公告）日：	2019-01-04
发明（设计）人：	孙晓;郑中华;张波;胡淦	申请（专利权）人：	南京都宁大数据科技有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京轻创知识产权代理有限公司 11212	代理人：	沈尚林
地址：	210000 江苏省南京市江宁***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本测度恐慌情绪情绪语义文本信息预处理农产品市场情绪关键词判定规则农产品判定采集互联网发布分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于语义文本的大宗农产品投资者恐慌情绪测度方法，包括以下步骤：

(1)投资文本信息采集：通过建立投资文本信息库，采用网络爬虫的形式从互联网各大宗农产品投资论坛、博客中采集相关文本内容；

(2)文本信息预处理：投资文本信息库建立后，需要对文本信息进行预处理，预处理包括断句、分词，情绪关键词提取，为后续的语义情绪分析做准备；

(3)语义情绪分析：对步骤(2)提取到的情绪关键词进行情绪值计算，进而得到整个文本的情绪值；

所述情绪值由情绪极性和情绪强度构成：

所述情绪极性按情绪倾向分为正负，其中积极乐观情绪和中性情绪的情绪极性为“+”，消极恐慌情绪的情绪极性为“-”；

所述情绪强度由具体的情绪关键词按照表1的赋值规则取值：

表1：情绪关键词的赋值规则

通过表1的赋值规则获得文本中每个情绪关键词的情绪值，进而将文本中所有情绪关键词的情绪值进行加总求和并算出均值，得到整个文本的情绪值，计算公式如下：

其中E(T)表示一个文本篇章的情绪值，S_i表示文本中第i个情绪关键词，E(S_i)表示第i个情绪关键词的情绪值，n表示文本中情绪关键词的数量；

(4)文本情绪倾向判定：

表2：文本情绪倾向判定规则


文本情绪值	文本情绪倾向
正	积极乐观或中性
负	消极恐慌

由步骤(3)所得到的文本情绪值与表2的文本情绪倾向判定规则进行对比，判定整个文本是否为消极恐慌情绪。

2.根据权利要求1所述的大宗农产品投资者恐慌情绪测度方法，其特征在于，在步骤(1)中，所述投资文本信息采集具体包括以下步骤：

(5)确定目标主题和目标采集网页链接；根据用户输入的大宗农产品投资者投资评论关键词作为目标主题，自动搜索获取相关的论坛、博客网址作为目标采集网站；在目标采集网站包含的多个网页链接中，确定所述目标主题对应的目标网页链接；

(6)对确定的目标采集网页链接进行过滤处理；在确定的目标采集网页链接中，可能包含有重复、无效的网页链接，需要进行过滤处理；

(7)对过滤处理后的目标网页链接进行网页内容下载，根据网页内容中的HTML标签，定位需要采集的文章对应的URL，根据需要采集的文章对应的URL，对文章对应的文本信息进行下载并保存到投资文本信息库。

3.根据权利要求1所述的大宗农产品投资者恐慌情绪测度方法，其特征在于，在步骤(2)中，所述文本信息预处理具体包括以下步骤：

(8)断句处理：以中文句号或其他标点符号为断句节点，在进行语义情绪分析前需要对采集到的文本信息进行断句处理；

(9)分词和词性标注：对断句后的文本进行分词，分词过程中采用的是Python3.0分词软件，分词的依据是中文语料词典，采用的是开源的HanLP自然语言处理包，在分词的过程中自动完成词性标注，分词的结果为各个词组；

(10)提取情绪关键词构建情绪词典：为方便情绪关键词提取，需要构建情绪词典，通过对步骤(9)中分词和词性标注获取的所有文档情绪词组，统计这些词组，获取在网络数据中出现词频最高的词组作为情绪关键词；将提取的情绪关键词加入情绪词典，并且后续不断扩充；对文本中分词后的词组与情绪词典中的词组进行比对，比对成功的即为情绪关键词，将情绪关键词进行提取；

所述情绪词典构建采用word2vector模型中CBOW，包括输入层、投影层、输出层；其中输入层为context(w)中2c个词向量，V(Context(w)₁)、V(Context(w)₂)…V(Context(w)_2c)；投影层则是输入层的2c个词向量的累加之和，输出层对应一棵二叉树，它是以文本中出现过的词作为叶子节点，以各词在文本中出现的次数当权值构造出来的Huffman树；输入层、投影层和输出层之间使用矩阵向量运算方法，输出层中的叶子节点由于分支都会产生一个概率，这些概率相乘就可以得到相关词组的概率，其中由上下文预测一个词组的概率的计算方法如下：

P(w_i|Context)＝P(w_i|w_i-k，w_i-k+1…，w_i-1，w_i+1，…，w_i+k)

上式中，P为词组概率，w_i表示文本中的某个词。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京都宁大数据科技有限公司，未经南京都宁大数据科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811009600.9/1.html，转载请声明来源钻瓜专利网。

上一篇：信息分类方法及装置、计算机可读存储介质
下一篇：命名实体识别方法、装置、介质以及设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于语义文本的大宗农产品投资者恐慌情绪测度方法在审

专利文献下载