[发明专利]互联网短文本主题特征与情感倾向分析方法、系统及介质在审

专利信息
申请号: 202110632146.8 申请日: 2021-06-07
公开(公告)号: CN113535891A 公开(公告)日: 2021-10-22
发明(设计)人: 郭浩哲;蒙圣光;廖玉敏 申请(专利权)人: 广东东华发思特软件有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/332;G06F16/35;G06F16/953;G06K9/62
代理公司: 广州嘉权专利商标事务所有限公司 44205 代理人: 张志辉
地址: 519000 广东省珠海市横琴新*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 互联网 文本 主题 特征 情感 倾向 分析 方法 系统 介质
【说明书】:

发明公开了互联网短文本主题特征与情感倾向分析方法、系统及介质,其中方法包括:采集互联网OTA资源对象及其评价信息;将OTA评价信息进行分词并聚类,得到主题特征;提取聚类分析主题特征维度下的分词中的高频词,计算其情感倾向及特征倾向,归类出特征词库及情感词库;以及筛选出特征领域停用词词库;建立同义词林;将评价信息拆分为短句,进行分词、同义词林处理及停用词处理;计算句子的情感向量,通过支持向量机计算情感倾向;确定分词的特征倾向,并确定短句的特征主题;输出该评价信息的特征主题和综合情感倾向。本发明能够精准分析互联网评价主题和行业口碑水平。

技术领域

本发明涉及数据处理技术领域,特别涉及一种互联网短文本主题特征与情感倾向分析方法、系统及介质。

背景技术

现在评价情感分析主要使用snowNLP词库,通过反复迭代分词词典和情感词典,分词结果比对snowNLP词库的下正面和负面情感词典库,得到一个情感词列表,统计正负面情感词出现次数评价情感倾向。但是,现有的情感倾向分析方法忽略重点关注的特征维度情感分析和以及互联网评价中常见的评分要素。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种互联网短文本主题特征与情感倾向分析方法,能够精准分析互联网评价主题和行业口碑水平。

本发明还提出一种互联网短文本主题特征与情感倾向分析系统。

本发明还提出一种实施上述互联网短文本主题特征与情感倾向分析方法的计算机可读存储介质。

根据本发明的第一方面实施例的互联网短文本主题特征与情感倾向分析方法,包括以下步骤:S100、通过python网络爬虫采集互联网OTA资源对象及其评价信息,录入数据库并将不同平台的资源对象归一化;S200、将OTA评价信息进行分词,并根据分词结果的相似度进行聚类,得到各分类的特征词,并根据各分类的特征词得到主题特征;S300、提取聚类分析主题特征维度下的分词中的高频词,基于KNN计算高频词的情感倾向及特征倾向,归类出特征词库及情感词库;将所述特征词库记为领域关键词库,以及根据特征相似度筛选出特征领域停用词词库;基于词汇间相似度建立同义词林;S400、输入一个完整的OTA评价信息,将评价信息拆分为短句,过滤掉不包含领域特征关词的短句,对包含领域关键词的短句进行分词、同义词林处理及停用词处理;S500、通过词汇相似度和所述情感词库得到情感词向量,并计算得到句子的情感向量,然后通过支持向量机计算情感倾向;S600、通过词汇相似度和所述特征词库得到分词的特征倾向,并通过统计确定短句的特征主题;S700、输出该评价信息的特征主题和综合情感倾向。

根据本发明实施例的互联网短文本主题特征与情感倾向分析方法,至少具有如下有益效果:本发明实施例的方法不仅通过正负面情感词评价情感倾向,还考虑了评价信息的特征主题,能够识别互联网评价主题及量化主题特征情感,深度精准挖掘用户评价的想法,分析行业发展口碑,为行业发展科学决策提供数据支撑。

根据本发明的一些实施例,所述步骤S100包括:将各个平台的对象根据名称相似度、地址相似度和具体坐标相关联匹配。

根据本发明的一些实施例,所述步骤S200包括:将OTA评价信息分别通过jieba分词进行分词,并按句关联保存到关联分词库,并将两两关联的分词作为新词保存入关联分词库;将分词结果以句子为单位,分词间空格间隔录入word2vec模型训练,得到已训练的词语相似度比较模型;将分词结果通过word2vec对比相似度,根据词语相似度置入k-means模型进行归类,并从分类结果中提取出该类的特征词,结合行业标准得到最终的主题特征。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东东华发思特软件有限公司,未经广东东华发思特软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110632146.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top