[发明专利]一种基于改进贝叶斯分类的短信智能分类及搜索方法有效
申请号: | 201310356056.6 | 申请日: | 2013-08-15 |
公开(公告)号: | CN103425777A | 公开(公告)日: | 2013-12-04 |
发明(设计)人: | 杨柳;滕建斌;殷钊;王衡;汪国平 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 冯艺东 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 贝叶斯 分类 短信 智能 搜索 方法 | ||
技术领域
本发明涉及一种分类方法及搜索方法,尤其涉及一种基于改进贝叶斯分类的短信智能分类及搜索方法,属于计算机软件技术领域。
背景技术
在信息化高度发达的今天,人们的交流也变得愈加快捷和频繁,在移动通信领域,短信凭借着它独特的优势,在人们的生活中占据着重要的位置。可以说,短信记录了人们生活的点点滴滴,一次约会,一次聊天,一次活动的通知,一则生日的祝福,都被一条条的短信记录下来。对于忙碌的现代人,他们已经没有时间像往常一样通过日记来记录下生活的琐事,而短信,就是他们信息化时代下新的日记本。
然而,如今的手机短信管理软件看似琳琅满目,实际上则大同小异,基本都是对短信进行以联系人为特征分类,以时间为顺序显示的简单非智能化的管理,这样就导致了人们的短信成为了时间线而不是日记本,因为谁都不会将自己的工作日记和情感日记写到一起。
对短信的智能管理,核心是能够对短信进行准确的分类,但是,对正常用户短信的分类困难重重,主要体现在文本太短:由于短信文本很短,这就导致特征值会多而散,非常的不明显,很多的分类算法面对这种情况很难达到预想的效果。
当前,国内外的商业公司越来越多的将目光聚焦于移动平台,虽然关于自然语言处理和文本分类的研究已经相对成熟,但是将其运用于短信智能管理上还极不成熟,这种困难性是由短信的先天特质而决定的。
发明内容
本发明的目的在于提出一种自动对短信进行分类及搜索的算法。本发明主要应用在Android智能手机上,每当用户接收到一条短信,就利用该算法将此条短信划入系统预先定义好的某个类别中,方便用户对短信进行查看和管理。
本发明是基于改进贝叶斯分类的智能短信分类及搜索算法,能够通过对短信特点的分析,综合用户习惯,结合国内外现有短文本分类研究成果,解决短信的智能分类问题,从而提出一个高效可行的智能短信分类搜索方案。
针对中文短信展开研究,分词是基础。本系统根据研究平台的特点选择了两款最适合的分词工具。
1)中科院汉语分词系统:NLPIR(又名ICTCLAS2013)采用了层叠隐马尔科夫模型(Hierarchical Hidden Markov Model),可同时进行分词和词性标注,支持用户词典,支持多种编码,在准确率上非常优秀。本系统采用NLPIR系统在PC端对训练集进行切词和词性标注。但是经过实验证明,NLPIR在手机端切词并不合适,原因是NLPIR发行包很大,打包到手机应用中会极大的影响用户体验。
2)Jcseg:Jcseg是使用Java开发的一个中文分词器,使用流行的mmseg算法实现。根据Jsceg官方wiki公布,其分词准确率达到了98.41%。开源、轻量级的Jcseg是手机端切词的很好选择,由于Jcseg官方版本并不支持安卓系统,通过对Jcseg的部分代码重写(替换一些在Android中不支持的函数,比如将Java常用的System.out输出信息改为Android中的Log等;修改字典的读取路径,将字典文件放入Android应用的assets文件夹中),得到了一个安卓版本的Jcseg,实验证明,该分词系统在安卓手机上有很好的分词效果。
为达成上述目的,本发明的技术方案步骤包括:
1)对训练集中的短信,在PC端利用中科院汉语分词系统得到词条的集合;
中科院分词系统对词语的词性进行了详细的分类(如名词、时间词、处所词、方位词、动词、形容词等),而其中有一些高频词是没有意义的,比如“的”“了”“吧”等。本发明出于效率和准确率的折中考虑,仅保留名词、动词和形容词三类;
2)在PC端利用一种适用于短信内容的特征值提取方法计算词条的重要性值并排序,将前N个词条的集合作为系统的特征值集合;
每个特征词及其在各个类别中的权重值(重要性值)保存在一个文件中,在系统进行手机端的初始化操作时直接导入;
3)对于用户手机上已存在的每一条短信,根据改进的贝叶斯分类算法计算该短信属于每个类别的概率,并将具有最大概率的类别作为该短信的分类结果,保存在手机的短信类别数据库表中;
4)监听用户的手机短信,对于每一条收到的短信,利用3)所述流程对该短信进行分类。
5)利用搜索模块可以向数据管理模块发送搜索请求,对数据库中已有的短信进行搜索,并将得到的搜索结果发送到界面模块展示给用户。
与现有技术相比,本发明的积极效果为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310356056.6/2.html,转载请声明来源钻瓜专利网。