[发明专利]一种基于朴素贝叶斯的文本分类方法有效
申请号: | 201710832802.2 | 申请日: | 2017-09-15 |
公开(公告)号: | CN107391772B | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 简海英;吕磊;邓丕;杨谦;王海;袁志刚;陈焕章;吴红;张庆;高峰;刘悠;张威 | 申请(专利权)人: | 国网四川省电力公司眉山供电公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/279;G06K9/62;G06Q50/06 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 梁田 |
地址: | 620000 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 朴素 贝叶斯 文本 分类 方法 | ||
本发明公开了一种基于朴素贝叶斯的文本分类方法,包括:步骤1:将待分类文本利用分词工具形成特征向量,将特征向量与常用词进行比较,去掉待分类文本中无意义的词语;对待分类文本中出现的每一个单词si进行权重wi设置;得到P(w1,...,wn)在训练文本集Di中出现的概率集Q(w1,...,wn);将Q(w1,...,wn)中属性相乘得到P(w1,...,wn)在训练文本集Di中出现的先验概率P(w|Di);步骤3:训练文本集Di中的文件数量除以整个训练文本集的总数得到先验概率P(Di),P(Di)*P(x|Di)得到P(w1,...,wn)在训练文本集Di中的后验概率P(Di|w),步骤4:重复步骤2、3,计算出所有后验概率;步骤5:在步骤4的结果中比较出最大的后验概率P(Di),Di类为P(w1,...,wn)所属类别,本方法的性能更好,在电力用户诉求文本分类问题中具备很好的实践应用价值。
技术领域
本发明涉及铁路接触网检测领域,具体地,涉及一种基于朴素贝叶斯的文本分类方法。
背景技术
电力客服部门每天都要面对大量用户的诉求信息。传统模式下,接线员将用户的诉求信息通过主观判断进行分类,之后交付给相应部门进行处理。这种方式需要人工逐条查看确认,信息化、智能化严重不足。
电力用户诉求文本分类方面的内容非常丰富,这些内容常见于信息检索、机器学习、知识挖掘与发现、模式识别、智能电网、电力科学与应用等各种国际会议及相关的期刊或杂志。比较有代表性的综述文章有Sebastiani的“Machine Learning in AutomatedText Categorization和Aas的“Text Categorization:A Survey。目前最常使用的文本分类算法有:kNN分类算法、朴素贝叶斯分类算法、支持向量机、神经网络等。其中,朴素贝叶斯算法由于其良好的执行速率和低复杂度而成为最为流行的数据挖掘算法之一。然而,朴素贝叶斯算法有一个严重的缺点:假设各属性之间相互独立。但是在电力行业的用户诉求文本中,各属性之间往往存在依赖关系。因此,传统的朴素贝叶斯算法并不能在电力行业的客户诉求信息分类问题中取得理想效果。
发明内容
本发明提供了一种基于朴素贝叶斯的文本分类方法,解决了现有的文本分类算法效果不理想的技术问题,本申请中的方法克服电力用户诉求信息难以满足传统朴素贝叶斯中属性独立假设这一不足,方法的性能更好,在电力用户诉求文本分类问题中具备很好的实践应用价值。
本发明提出的基于朴素贝叶斯的文本分类方法可以解决现有技术中缺点,能够用于对海量用户诉求进行实时的自动舆情分析、舆情汇总,并识别其中的关键舆情信息,及时反馈到相关人员建立应急响应,为正确舆论导向及收集用户意见提供直接支持的一套信息化平台。
为实现上述发明目前,本申请提供了一种基于朴素贝叶斯的文本分类方法,所述方法包括:
步骤1:将待分类文本利用分词工具形成特征向量,将特征向量与常用词进行比较,去掉待分类文本中无意义的词语;对待分类文本中出现的每一个单词si进行权重wi设置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网四川省电力公司眉山供电公司,未经国网四川省电力公司眉山供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710832802.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像特效的生成方法和装置
- 下一篇:一种在线文本管理方法和装置