[发明专利]基于机器学习的股票评论的观点极性分类方法和装置在审
| 申请号: | 201810943297.3 | 申请日: | 2018-08-17 |
| 公开(公告)号: | CN109299252A | 公开(公告)日: | 2019-02-01 |
| 发明(设计)人: | 王浩;张晨;庞旭林;杜长营;杨康 | 申请(专利权)人: | 北京奇虎科技有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27;G06Q40/04 |
| 代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝;何立春 |
| 地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 机器学习模型 股票 评论文本 训练集 标注 方法和装置 基于机器 分类 准确度 评测 分类信息 评论数据 市场走势 相关信息 测试集 验证集 预测 评论 学习 验证 输出 帮助 | ||
1.一种基于机器学习的股票评论的观点极性分类方法,其中,该方法包括:
获取由股票评论文本组成的训练集和验证集,并为训练集和验证集中的每条股票评论文本标注观点极性;
基于标注后的训练集,对机器学习模型进行训练,并基于标注后的测试集对所述学习模型的效果进行评测,得到训练后的机器学习模型;
将待预测的股票评论文本的相关信息输入到所述训练后的机器学习模型,得到该机器学习模型输出的该股票评论文本的观点极性分类信息。
2.如权利要要求1所述的方法,其中,所述基于标注后的训练集,对机器学习模型进行训练,并基于标注后的测试集对所述学习模型的效果进行评测包括:
从训练集的股票评论文本中提取特征,以提取的特征作为机器学习模型的输入,以股票评论文本的观点极性分类信息作为所述机器学习模型的输出;
基于所述机器学习模型的输出的观点极性分类信息和相应股票评论文本标注的观点极性,计算所述机器学习模型的损失,并基于计算出的损失学习机器学习模型的参数;
从验证集的股票评论文本中提取特征,将提取的特征输入到所述机器学习模型中,得到所述机器学习模型输出的股票评论文本的观点极性分类信息;基于所述机器学习模型的输出的观点极性分类信息和相应股票评论文本标注的观点极性,评测所述机器学习模型的效果;
重复上述步骤,直到所述机器学习模型的效果达到预设条件。
3.如权利要求2所述的方法,其中,
所述从训练集的股票评论文本中提取特征包括:确定词典;基于所述词典,确定训练集中的每条股票评论文本的词频逆文本频率TF-IDF特征;其中,TF-IDF特征为词典尺寸大小的向量,其每个维度为相应词基于该股票评论文本的TF-IDF值;
所述从验证集的股票评论文本中提取特征包括:基于所述词典,确定验证集中的每条股票评论文本的词频逆文本频率TF-IDF特征;
所述待预测的股票评论文本的相关信息为:该股票评论文本的TF-IDF特征。
4.如权利要求1所述的方法,其中,该方法进一步包括:
将机器学习模型输出的股票评论文本的观点极性分类信息与相应股票在相应时间的实际涨跌情况进行比较,确定该股票评论文本的可靠性指数。
5.如权利要求4所述的方法,其中,该方法进一步包括:
为股票评论文本生成相应的结构化数据,该结构化数据包括:股票评论员标识、评论时间、评论内容、目标股票、观点极性和可靠性指数。
6.如权利要5所述的方法,其中,该方法进一步包括:
获取结构化的股票评论数据;其中,一条股票评论数据是指单个股票评论员对单个股票的单次评论数据;
基于所获取的股票评论数据,挖掘股票评论员的观点极性分布信息;
以及,基于所获取的股票评论数据,挖掘股票评论员的观点可靠性分布信息。
7.如权利要求6所述的方法,其中,所述基于所获取的股票评论数据,挖掘股票评论员的观点极性分布信息包括如下中的一种或多种:
基于所获取的股票评论数据中的同一股票评论员针对同一股票的所有历史股票评论数据,确定该股票评论员针对该股票发布看涨的股票评论数据的概率,以及确定该股票评论员针对该股票发布看跌的股票评论数据的概率;
基于所获取的股票评论数据中的同一股票评论员针对不同股票的所有历史股票评论数据,确定该股票评论员发布看涨的股票评论数据的概率,以及确定该股票评论员发布看跌的股票评论数据的概率;
基于所获取的股票评论数据中的不同股票评论员针对同一股票的所有历史股票评论数据,确定股票评论员针对该股票发布看涨的股票评论数据的概率,以及确定股票评论员针对该股票发布看跌的股票评论数据的概率;
基于所获取的股票评论数据中的不同股票评论员针对不同股票的所有历史股票评论数据,确定发布看涨的股票评论数据的概率,以及确定发布看跌的股票评论数据的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810943297.3/1.html,转载请声明来源钻瓜专利网。





