[发明专利]数据分类方法和装置有效
申请号: | 201711024483.9 | 申请日: | 2017-10-27 |
公开(公告)号: | CN107818153B | 公开(公告)日: | 2020-08-21 |
发明(设计)人: | 王殿胜;唐红武;谢世局;籍焱;薄满辉;赵楠 | 申请(专利权)人: | 中航信移动科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/247;G06Q30/02 |
代理公司: | 北京瑞思知识产权代理事务所(普通合伙) 11341 | 代理人: | 王宝玲 |
地址: | 101318 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 分类 方法 装置 | ||
本发明提供了一种数据分类方法和装置,其中,该方法包括:获取待分类的航班点评数据;对所述点评数据进行分词处理;基于标签核心词匹配对分词处理后的点评数据进行分类,确定所述点评数据所属的类别。通过上述方案解决了现有的数据方法无法对航班点评数据进行准确分类的技术问题,达到了简单高效实现对航班点评数据的精准分类的技术效果。
技术领域
本发明涉及航空分析技术领域,特别涉及一种数据分类方法和装置。
背景技术
随着互联网技术的不断发展,越来越多的人通过互联网发表产品的使用心得。对于商家而言,互联网上大量的产品信息反映了用户体验、意见等等。如果可以聚合这些信息提供给商家,那么可以促进商家进行市场调研和产品规划,以及进行服务改进。
然而,考虑到产品评论的多样化,评论信息涉及的层面很多,如何对海量的评论信息进行分类,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据分类方法和装置,以达到对航班点评数据进行精准分类的技术效果,该方法包括:
获取待分类的航班点评数据;
对所述点评数据进行分词处理;
基于标签核心词匹配对分词处理后的点评数据进行分类,确定所述点评数据所属的类别。
在一个实施方式中,对所述点评数据进行分词处理包括:
去除所述点评数据中的脏数据;
基于航空服务领域的分词词典,对去除脏数据之后的点评数据进行分词处理。
在一个实施方式中,所述航空服务领域的分词词典是通过统计航班点评文本中的高频词生成的。
在一个实施方式中,类别包括以下至少之一:餐食、空乘、娱乐设施、客舱环境、客舱设施、机上广播、准点情况、值机、机型机龄、行李、机票、候机楼、飞行体验、远机位。
在一个实施方式中,基于标签核心词匹配对分词处理后的点评数据进行分类,包括:
获取在所述点评数据中各类别的核心关键词出现的次数和各类别的标签相关词出现的次数;
将核心关键词出现的次数大于0所对应的类别,或者,标签相关词出现的次数大于等于预设阈值所对应的类别,作为所述点评数据所属的类别。
在一个实施方式中,在基于标签核心词匹配对分词处理后的点评数据进行分类,确定所述点评数据所述的类别之后,所述方法还包括:
在基于标签核心词匹配未确定出所述点评数据所属的类别的情况下,通过分词处理后的点评数据中各个词段的概率,对所述点评数据进行分类。
在一个实施方式中,通过分词处理后的点评数据中各个词段的概率,对所述点评数据进行分类,包括:
通过分词处理后的点评数据中各个词段的概率,按照以下方式对所述点评数据进行分类:
设定所述点评数据中包含有k个词语,其中第i个词语表示为wi,其中,i取值为1到k,则所述点评数据属于类别Cn的概率P为:
其中,p(wi|Cn)为词wi在类别Cn中的概率;
选取概率最大的类别作为各词段所属的类别。
在一个实施方式中,基于标签核心词匹配对分词处理后的点评数据进行分类,确定所述点评数据所属的类别,包括:
对分词处理后的点评数据匹配情感分析语法规则集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中航信移动科技有限公司,未经中航信移动科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711024483.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置