[发明专利]一种文本信息情感判定方法和判定装置在审
申请号: | 201910149488.7 | 申请日: | 2019-02-28 |
公开(公告)号: | CN109948148A | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 吴明平;黄楷;梁新敏;吴明辉 | 申请(专利权)人: | 北京学之途网络科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 北京天方智力知识产权代理事务所(普通合伙) 11719 | 代理人: | 谷成 |
地址: | 100070 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 情感倾向 判定 判定装置 情感类型 文本信息 文本 短句 分类过程 分类模型 基础行业 判定结果 情感分析 行业数据 直接反应 贝叶斯 分类 单条 定性 分析 精细 衡量 概率 | ||
本发明提供了一种文本信息情感判定方法和判定装置,解决现有情感分析方法对丰富情感缺乏可衡量评价的技术问题。方法包括:利用基于情感倾向分类的朴素贝叶斯分类过程获取待判定文本的情感倾向概率。利用情感倾向分类体现的是非特定情感类型的定性趋势,不直接反应情感类型,避免了分类模型的精细分析缺陷和对行业数据分析的局限性。同时针对单条文本存在多倾向短句子的情况,给出了基础行业属性细分的方法,提供了更加精准的情感判定结果。
技术领域
本发明涉及语义识别技术领域,具体涉及一种文本信息情感判定方法和判定装置。
背景技术
用户在互联网各平台发表的评论、原创博文等文本信息,反映了用户对于某个事件的持有态度或者对某个品牌产品的主观评价,这些信息可用于发掘用户的兴趣特征和行为模式,进行更加精确的舆情分析,从而实现个性化的精准营销。
目前,对于实现文本信息情感分析的方法主要有两大类。一类是基于规则与统计的方法,主要是结合情感词典与句式结构,但情感词典和文本信息不规整句式结构的准确构建是技术难点。另一类则是将文本向量化表示,然后结合机器学习的分类算法,将情感差异作为一个文本分类的任务来完成。现有文本分类技术中针对情感分析大多只给出了两类极性的情感判定,即仅有正面和负面的情感,这对于舆情分析分类是不充分的。而利用过多的的情感分类类别不仅会加重情感分析的文本标注成本,而且产生不出更高的分析价值,反而误差率会更高。
发明内容
鉴于上述问题,本发明实施例提供一种文本信息情感判定方法和判定装置,解决现有情感分析方法对丰富情感缺乏可衡量评价的技术问题。
本发明实施例的文本信息情感判定方法,包括:
利用基于情感倾向分类的朴素贝叶斯分类过程获取待判定文本的情感倾向概率。
本发明一实施例中,所述基于情感倾向分类的朴素贝叶斯分类过程的形成包括:
对源数据进行文本预处理形成源数据文本;
在所述源数据文本中抽取形成采样数据文本;
对所述采样数据文本进行倾向标注形成情感倾向类别和对应采样数据文本集合;
对所述采样数据文本进行文本特征提取,根据所述文本特征形成训练样本集;
通过所述训练样本集形成朴素贝叶斯分类过程中所述情感倾向类别在训练样本中的出现频率以及每个文本特征对每个情感倾向的条件概率估计。
本发明一实施例中,所述情感倾向类别包括正面、负面和中性。
本发明一实施例中,所述源数据至少来源于电商平台、微博平台和微信平台中的一个平台。
本发明一实施例中,所述对源数据进行文本预处理至少包括以下一种处理方式:
针对时间信息,进行删除处理;
针对链接信息,进行删除处理;
针对话题和/或主题信息,进行删除处理;
针对转发微博信息,仅保留当前用户发布微博内容;
针对用户名和/或用户昵称,进行删除处理;
针对特殊符号,进行删除处理;
针对表情符号,进行正则表达式匹配,替换为所述正则表达式对应的标准文本。
本发明一实施例中,所述在所述源数据文本中抽取采用随机抽取方式。
本发明一实施例中,所述在所述对所述采样数据文本进行文本特征提取包括:
采用词袋模型筛选出所述采样数据文本的高热度词汇;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京学之途网络科技有限公司,未经北京学之途网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910149488.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:教学资源的有效提取方法
- 下一篇:一种文本分类方法及装置