[发明专利]一种歌曲评论的分析方法和系统在审
申请号: | 201611170048.2 | 申请日: | 2016-12-16 |
公开(公告)号: | CN108205542A | 公开(公告)日: | 2018-06-26 |
发明(设计)人: | 高玉敏 | 申请(专利权)人: | 北京酷我科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京亿腾知识产权代理事务所 11309 | 代理人: | 陈霁 |
地址: | 100084 北京市海淀区农大*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 训练分类 歌曲 评论 训练集样本 测试集 标注 分析 文本 优化 上下文信息 分词处理 文本向量 训练模型 预定规则 数据集 准确率 向量 | ||
1.一种歌曲评论的分析方法,其特征在于,包括:
选取歌曲评论的样本,并对所述样本进行相应的标注,以获取到标注后的样本;
按照预定规则将所述标注后的样本分为训练集样本和测试集样本;
对所述训练集样本以及所述测试集样本进行分词处理,并通过训练模型对处理过的文本进行训练,以得到相应的文本的向量;
通过训练分类模型对训练集样本中的文本向量进行训练,以得到优化的训练分类模型,以及
通过优化的训练分类模型对测试集样本中的歌曲评论进行分析。
2.根据权利要求1所述的方法,其特征在于,采用简易中文分词系统对所述训练集样本以及所述测试集样本进行分词处理。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述训练集样本以及所述测试集样本中的停用词或者标点符号进行过滤处理。
4.根据权利要求1所述的方法,其特征在于,在得到优化的训练分类模型之后,所述方法还包括:
通过测试集样本中的文本向量评估优化的训练分类模型的准确度。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将选取的当前歌曲评论的样本标注为积极的歌曲评论的样本,或者,将选取的当前歌曲评论的样本标注为消极的歌曲评论的样本。
6.根据权利要求1所述的方法,其特征在于,通过doc2vec训练模型对处理过的文本进行训练,以得到相应的文本的向量,其中,所述相应的文本的向量具体包括如下至少一种向量:
当前待预测的单词在给定的上下文中的向量,以及当前待预测的单词所在段落的向量。
7.根据权利要求6所述的方法,其特征在于,根据当前待预测的单词在给定的上下文中的向量,以及当前待预测的单词所在段落的向量,给出当前待预测的单词出现的概率。
8.根据权利要求6所述的方法,其特征在于,若当前待预测的单词所在段落的向量ID保持不变,则相应的段落向量维持不变。
9.根据权利要求1所述的方法,其特征在于,通过GBDT训练分类模型对训练集样本中的文本向量进行训练,以得到优化的训练分类模型。
10.一种歌曲评论的分析系统,其特征在于,包括:
标注样本获取单元,选取歌曲评论的样本,并对所述样本进行相应的标注,以获取到标注后的样本;
样本分类单元,按照预定规则将所述标注后的样本分为训练集样本和测试集样本;
文本向量获取单元,对所述训练集样本以及所述测试集样本进行分词处理,并通过训练模型对处理过的文本进行训练,以得到相应的文本的向量;
模型获取及评论分析单元,通过训练分类模型对训练集样本中的文本向量进行训练,以得到优化的训练分类模型,以及
通过优化的训练分类模型对测试集样本中的歌曲评论进行分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京酷我科技有限公司,未经北京酷我科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611170048.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:分布式网络爬虫任务的调度方法及装置
- 下一篇:一种歌曲信息存储方法和系统