[发明专利]一种基于von Mises-Fisher概率模型的网页分类方法有效
| 申请号: | 201510919129.7 | 申请日: | 2015-12-11 |
| 公开(公告)号: | CN105550292B | 公开(公告)日: | 2018-06-08 |
| 发明(设计)人: | 马占宇;黄迪;周环宇 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 姜荣丽 |
| 地址: | 100876 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 概率模型 特征向量 网页分类 建模 机器学习技术 文本特征向量 自然语言处理 待分类网页 数据预处理 模型建模 特征筛选 特征提取 训练样本 归一化 范数 文本 互联网 分类 应用 | ||
本发明公开了一种基于von Mises‑Fisher概率模型的网页分类方法,属于互联网及机器学习技术领域。所述方法首先对训练样本进行数据预处理、特征提取和特征筛选后建模,然后将待分类网页的特征向量代入模型中实现最终分类。本发明对所得特征向量进行二范数归一化,在消除文本长度对特征向量影响的同时可为von Mises‑Fisher模型建模做准备;使用von Mises‑Fisher概率模型对文本特征向量进行建模,此模型为首次应用于自然语言处理领域。
技术领域
本发明属于互联网及机器学习技术领域,涉及自然语言处理,具体涉及一种基于正文内容的网页分类方法。
背景技术
自然语言处理技术研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。一个中文文本或一个汉字(含标点符号等)串可能有多个含义。它是自然语言理解中的主要困难和障碍。因此,自然语言的形式(字符串)与其意义之间是一种多对多的关系。但从计算机处理的角度看,我们必须消除歧义。歧义现象的广泛存在使得消除它们需要大量的知识和推理,这就给基于语言学的方法、基于知识的方法带来了巨大的困难,因而以这些方法为主流的自然语言处理研究几十年来一方面在理论和方法方面取得了很多成就,但在能处理大规模真实文本的系统研制方面,成绩并不显著。研制的一些系统大多数是小规模的、研究性的演示系统。
目前存在的问题有两个方面:一方面,迄今为止的语法都限于分析一个孤立的句子,上下文关系和谈话环境对本句的约束和影响还缺乏系统的研究,因此分析歧义、词语省略、代词所指、同一句话在不同场合或由不同的人说出来所具有的不同含义等问题,尚无明确规律可循,需要加强语言学的研究才能逐步解决。另一方面,人理解一个句子不是单凭语法,还运用了大量的有关知识,包括生活知识和专门知识,这些知识无法全部贮存在计算机里。因此一个书面理解系统只能建立在有限的词汇、句型和特定的主题范围内;计算机的贮存量和运转速度大大提高之后,才有可能适当扩大范围。
许多不同类的机器学习算法已应用于自然语言处理任务。这些算法的输入是一大组从输入数据生成的“特征”。一些最早使用的算法,如决策树、逻辑回归和朴素贝叶斯分布等。然而,越来越多的研究集中于统计模型,此类模型具有能够表达许多不同的可能的答案,而不是只有一个相对的确定性。产生更可靠的结果时,这种模型被包括作为较大系统的一个组成部分的优点。
发明内容
本发明采用一种未在自然语言处理领域使用过的von Mises-Fisher概率模型,通过网页正文内容进行特征提取及建模,基于所得的概率密度函数进行分类,达到了更高的网页分类准确度,具有效率高、分类准确度高等优势。
本发明提供一种基于von Mises-Fisher概率模型的网页分类方法,包括以下步骤:
步骤1:数据预处理:对于训练样本,去除无用信息,得到第一行为样本类别标签的样本文档。所述的训练样本为带有类别标签的网页。
步骤2:特征提取:采用向量空间模型对样本文档进行建模,统计样本文档中各单词作为特征,单词出现的频率作为特征值。
步骤3:特征筛选:计算单词的TF-IDF(Term Frequency–Inverse DocumentFrequency)值,按TF-IDF值大小排序,筛选具有代表性的单词,组成最终的特征向量。
步骤4:建模:使用von Mises-Fisher混合概率模型对特征向量进行建模,得到各类别的von Mises-Fisher混合概率模型。
步骤5:网页分类:根据von Mises-Fisher混合概率模型,统计样本文档特征向量中出现的所有词汇在待分类网页中出现的次数,得到待分类网页的特征向量,将待分类网页的特征向量带入各概率密度函数,从而完成分类。
本发明一种基于von Mises-Fisher概率模型的网页分类方法的优点在于:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510919129.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:分类模型优化方法及装置
- 下一篇:一种信息定位方法及用户终端





