[发明专利]一种歌曲评论的分析方法和系统在审
申请号: | 201611170048.2 | 申请日: | 2016-12-16 |
公开(公告)号: | CN108205542A | 公开(公告)日: | 2018-06-26 |
发明(设计)人: | 高玉敏 | 申请(专利权)人: | 北京酷我科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京亿腾知识产权代理事务所 11309 | 代理人: | 陈霁 |
地址: | 100084 北京市海淀区农大*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 训练分类 歌曲 评论 训练集样本 测试集 标注 分析 文本 优化 上下文信息 分词处理 文本向量 训练模型 预定规则 数据集 准确率 向量 | ||
本发明涉及一种歌曲评论的分析方法和系统。所述方法包括:选取歌曲评论的样本,并对样本进行相应的标注,以获取到标注后的样本;按照预定规则将标注后的样本分为训练集样本和测试集样本;对训练集样本以及测试集样本进行分词处理,并通过训练模型对处理过的文本进行训练,以得到相应的文本的向量;通过训练分类模型对训练集样本中的文本向量进行训练,以得到优化的训练分类模型,以及通过优化的训练分类模型对测试集样本中的歌曲评论进行分析。本发明实施例中的优化的训练分类模型,不仅解决了目前的歌曲评论的分析方法的上下文信息缺失的问题,以及数据集规模过大的问题,进一步地,大大地提高了歌曲评论分析的准确率。
技术领域
本发明涉及音频技术领域,具体而言,本发明涉及一种歌曲评论的分析方法和系统。
背景技术
目前,常见的歌曲评论的分析方法是一种常见的自然语言处理方法。现有的方法的思路为:提取文本情感内容为目标,并对提取出来的目标进行分类。
目前,常用的方法为:通过词袋模型来对歌曲评论进行分析。具体的做法为:将每一个歌曲评论的文本当做一个1XN的向量,其中,N为作为歌曲评论的文本词汇的向量。定义的规则具体为:作为歌曲评论的文本词汇的向量的每一列为一个单词,值为该单词在作为歌曲评论的文本中出现的频数。进一步地,通过机器学习分类模型训练相应的数据,以预测针对当前歌曲的评论的预测感情。进一步地,预测针对当前歌曲的评论是积极的,还是消极的。
现有的,通过词袋模型对歌曲评论所作的情感分析的方法的缺点之一,忽略了上下文信息。例如,若针对当前歌曲的评论为这首歌曲不是很好听,则通过词袋模型对该条评论容易做出该条评论的情感为积极的错误判断。
其次,通过词袋模型对歌曲评论所作的情感分析的方法的缺点还有,在数据集规模比较大的情况下,向量维度过大,使得对歌曲评论的分析过程过于复杂,且耗时,浪费了宝贵的内存资源。
发明内容
本发明实施例在于提供一种歌曲评论的分析方法和系统,通过优化的训练分类模型,不仅解决了目前的歌曲评论的分析方法的上下文信息缺失的问题,以及数据集规模过大的问题,进一步地,大大地提高了歌曲评论分析的准确率。
第一方面,本发明实施例提供了一种歌曲评论的分析方法,所述方法包括:
选取歌曲评论的样本,并对所述样本进行相应的标注,以获取到标注后的样本;
按照预定规则将所述标注后的样本分为训练集样本和测试集样本;
对所述训练集样本以及所述测试集样本进行分词处理,并通过训练模型对处理过的文本进行训练,以得到相应的文本的向量;
通过训练分类模型对训练集样本中的文本向量进行训练,以得到优化的训练分类模型,以及
通过优化的训练分类模型对测试集样本中的歌曲评论进行分析。
优选的,采用简易中文分词系统对所述训练集样本以及所述测试集样本进行分词处理。
优选的,所述方法还包括:
将所述训练集样本以及所述测试集样本中的停用词或者标点符号进行过滤处理。
优选的,在得到优化的训练分类模型之后,所述方法还包括:
通过测试集样本中的文本向量评估优化的训练分类模型的准确度。
优选的,所述方法还包括:
将选取的当前歌曲评论的样本标注为积极的歌曲评论的样本,或者,将选取的当前歌曲评论的样本标注为消极的歌曲评论的样本。
优选的,通过doc2vec训练模型对处理过的文本进行训练,以得到相应的文本的向量,其中,所述相应的文本的向量具体包括如下至少一种向量:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京酷我科技有限公司,未经北京酷我科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611170048.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:分布式网络爬虫任务的调度方法及装置
- 下一篇:一种歌曲信息存储方法和系统