[发明专利]新闻情感分析的方法、装置、计算机设备和存储介质在审
申请号: | 201811030521.6 | 申请日: | 2018-09-05 |
公开(公告)号: | CN109325119A | 公开(公告)日: | 2019-02-12 |
发明(设计)人: | 郑子欧;汪伟;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F17/27 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 王宁 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 新闻数据 计算机设备 词典分析 存储介质 情感分析 维度区域 中心词 向量 预设 嵌入 词语 人工智能领域 分析过程 历史新闻 申请 分析 | ||
本申请涉及人工智能领域,提供了一种新闻情感分析的方法、装置、计算机设备和存储介质。所述方法包括:获取历史新闻数据中的词语,生成与词语对应的词嵌入向量,根据词嵌入向量,分别获取各预设的维度区域的聚类中心词,根据聚类中心词,确定各预设的维度区域的聚类词集,根据聚类词集生成聚类词典,根据聚类词典分析待处理新闻数据,根据分析结果确定新闻情感。采用本方法能够根据聚类词典分析待处理新闻数据,使分析过程简单化,提高分析待处理新闻数据的效率。
技术领域
本申请涉及机器学习技术领域,特别是涉及一种新闻情感分析的方法、装置、计算机设备和存储介质。
背景技术
随着机器学习技术的发展,出现了基于机器学习的新闻情感分析技术,通过分析新闻情感来确定用户对新闻的态度。这个技术将常见的基本情绪作为新闻情感成分,对新闻中的新闻情感成分进行分析,根据分析结果确定新闻情感。目前的新闻情感分析方法多采用多维情感分析,多维情感分析指的是以多种基本情绪作为多个维度区域,通过人工定义情感词典来分析新闻情感,获取新闻情感分析结果。
然而,目前的多维情感分析,耗时且效率低下。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高多维情感分析效率的新闻情感分析的方法、装置、计算机设备和存储介质。
一种新闻情感分析的方法,所述方法包括:
获取历史新闻数据中的词语,生成与词语对应的词嵌入向量;
根据词嵌入向量,分别获取各预设的维度区域的聚类中心词;
根据聚类中心词,确定各预设的维度区域的聚类词集;
根据聚类词集生成聚类词典;
根据聚类词典分析待处理新闻数据,根据分析结果确定新闻情感。
在其中一个实施例中,根据词嵌入向量,分别获取各预设的维度区域的聚类中心词包括:
获取各预设的维度区域的预设的种子词;
根据词嵌入向量,确定与种子词对应的种子词向量;
根据种子词向量,获取各预设的维度区域的聚类中心词。
在其中一个实施例中,根据种子词向量,获取各预设的维度区域的聚类中心词包括:
根据种子词向量确定各预设的维度区域的种子词向量均值;
根据种子词向量均值匹配种子词向量;
根据匹配结果确定各预设的维度区域的聚类中心词。
在其中一个实施例中,根据种子词向量,获取各预设的维度区域的聚类中心词包括:
根据种子词向量确定各预设的维度区域的种子词的密度峰值;
根据密度峰值匹配种子词向量;
根据匹配结果确定各预设的维度区域的聚类中心词。
在其中一个实施例中,根据聚类中心词确定各预设的维度区域的聚类词集包括:
根据聚类中心词和词嵌入向量,确定聚类中心词的中心词向量;
确定中心词向量与各词嵌入向量之间的距离;
当中心词向量与词嵌入向量之间的距离在预设的第一距离阈值范围内时,确定与词嵌入向量对应的词语为聚类词;
将聚类词存入预设的维度区域的聚类词集;
将聚类词作为备用聚类中心词,根据备用聚类中心词在预设的第二距离阈值范围内获取备用聚类词,并将备用聚类词存入预设的维度区域的聚类词集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811030521.6/2.html,转载请声明来源钻瓜专利网。