[发明专利]一种文本信息情感判定方法和判定装置在审
申请号: | 201910149488.7 | 申请日: | 2019-02-28 |
公开(公告)号: | CN109948148A | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 吴明平;黄楷;梁新敏;吴明辉 | 申请(专利权)人: | 北京学之途网络科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 北京天方智力知识产权代理事务所(普通合伙) 11719 | 代理人: | 谷成 |
地址: | 100070 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 情感倾向 判定 判定装置 情感类型 文本信息 文本 短句 分类过程 分类模型 基础行业 判定结果 情感分析 行业数据 直接反应 贝叶斯 分类 单条 定性 分析 精细 衡量 概率 | ||
1.一种文本信息情感判定方法,其特征在于,包括:
利用基于情感倾向分类的朴素贝叶斯分类过程获取待判定文本的情感倾向概率。
2.如权利要求1所述的文本信息情感判定方法,其特征在于,所述基于情感倾向分类的朴素贝叶斯分类过程的形成包括:
对源数据进行文本预处理形成源数据文本;
在所述源数据文本中抽取形成采样数据文本;
对所述采样数据文本进行倾向标注形成情感倾向类别和对应采样数据文本集合;
对所述采样数据文本进行文本特征提取,根据所述文本特征形成训练样本集;
通过所述训练样本集形成朴素贝叶斯分类过程中所述情感倾向类别在训练样本中的出现频率以及每个文本特征对每个情感倾向的条件概率估计。
3.如权利要求2所述的文本信息情感判定方法,其特征在于,所述情感倾向类别包括正面、负面和中性。
4.如权利要求2所述的文本信息情感判定方法,其特征在于,所述源数据至少来源于电商平台、微博平台和微信平台中的一个平台。
5.如权利要求2所述的文本信息情感判定方法,其特征在于,所述对源数据进行文本预处理至少包括以下一种处理方式:
针对时间信息,进行删除处理;
针对链接信息,进行删除处理;
针对话题和/或主题信息,进行删除处理;
针对转发微博信息,仅保留当前用户发布微博内容;
针对用户名和/或用户昵称,进行删除处理;
针对特殊符号,进行删除处理;
针对表情符号,进行正则表达式匹配,替换为所述正则表达式对应的标准文本。
6.如权利要求2所述的文本信息情感判定方法,其特征在于,所述在所述源数据文本中抽取采用随机抽取方式。
7.如权利要求2所述的文本信息情感判定方法,其特征在于,所述在所述对所述采样数据文本进行文本特征提取包括:
采用词袋模型筛选出所述采样数据文本的高热度词汇;
采用TF-IDF算法计算每个所述高热度词汇权值;
根据所述高热度词汇权值确定文本特征向量。
8.如权利要求1所述的文本信息情感判定方法,其特征在于,所述获取待判定文本的情感倾向概率包括:
获取所述待判定文本的文本特征;
通过所述基于情感倾向分类的朴素贝叶斯分类过程对所述待判定文本的文本特征进行分类概率比较获得所述待判定文本的情感倾向概率。
9.如权利要求1所述的文本信息情感判定方法,其特征在于,还包括:
根据所述情感倾向概率设置情感倾向分段阈值,根据待判定文本的情感倾向概率确定情绪类型。
10.如权利要求9所述的文本信息情感判定方法,其特征在于,所述设置情感倾向分段阈值包括:
所述情感倾向分段阈值根据在行业领域内对情感倾向校验获得的正确率和召回率确定。
11.如权利要求1或9所述的文本信息情感判定方法,其特征在于,还包括:
根据行业属性对所述待判定文本进行拆分形成文本段落,利用所述基于情感倾向分类的朴素贝叶斯分类过程为所述文本段落判定情感倾向概率。
12.如权利要求11所述的文本信息情感判定方法,其特征在于,所述行业属性根据所述待判定文本中的行业属性特征关键字识别。
13.如权利要求12所述的文本信息情感判定方法,其特征在于,所述行业特征关键字的形成过程包括:
对数据来源中的行业内容进行分词形成语料;
对所述语料清洗后停用行业领域内基础名词;
选取名词语料进行词频统计,对高频词进行有效性过滤形成所述行业特征关键字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京学之途网络科技有限公司,未经北京学之途网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910149488.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:教学资源的有效提取方法
- 下一篇:一种文本分类方法及装置