[发明专利]一种提取文本模型特征进行分类算法在审
| 申请号: | 201410765214.8 | 申请日: | 2014-12-10 |
| 公开(公告)号: | CN104462406A | 公开(公告)日: | 2015-03-25 |
| 发明(设计)人: | 刘江;李健铨;李炜 | 申请(专利权)人: | 天津大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 叶青 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 提取 文本 模型 特征 进行 分类 算法 | ||
技术领域
本发明涉及对文本模型特征进行二分类算法,尤其涉及一种提取文本模型特征进行分类算法。
背景技术
1)文本挖掘
随着计算机技术、网络技术的发展,汹涌而来的信息有时使人无所适从,从浩如烟海的信息海洋中迅速而准确地获取自己最需要的信息,变得非常困难。海量信息中,许多是文本信息。于是产生了一种新的信息处理技术——文本挖掘。文本挖掘是从大量文本信息中,抽取出隐含的、有用的知识,这一过程也称为文本数据库中的知识发现。它涉及到数据库、机器学习、自然语言处理、统计数据分析等多个学科领域。研究内容包括文本聚类、文本分类、文本摘要的生成、信息抽取等问题。
2)文本分类
文本分类是文本挖掘研究中一个重要的问题,它是指在给定的分类体系下,将大量文本划分为两个或多个类别。利用计算机进行文本分类,不仅速度快,而且准确率相对较高。在现实生活中已经有了很多应用,例如,对Web网页进行分类,将包含相同内容的页面归为一类。文本分类的步骤主要包括获取训练文档集、信息的预处理、特征提取、文本表示、选择分类方法和性能评估六个步骤。
3)迁移学习
在许多实际应用中,文本信息不仅数量巨大,所包含的内容也在快速的更新变化之中,例如,Web网页的内容经常变化主题。在传统的分类学习中,一个基本的假设就是认为用于训练分类模型的数据与目标任务的数据服从统一的分布。由于目标任务的数据会经常变化,这样就导致了当把训练好的模型应用于目标任务时,模型可能已经过时。若频繁地对目标任务的数据重新进行标记,代价昂贵,也做不到及时。我们可称目标任务的数据为新数据,可称以往积累的、大量的、已分类的数据为旧数据。如何最大限度地利用旧数据的分类知识,对新数据进行分类,成为一个急需解决的问题。迁移学习近年来成为数据挖掘领域的热门话 题,它与传统机器学习方法的主要区别是不需要数据独立同分布的假设。在迁移学习方法中,需要取出少量新数据,进行人工标注,作为训练数据的一部分。仅以这些数据用于训练模型,数量严重不足。所以以大量已分类的旧数据作为训练数据的补充。旧数据与新数据可能来自不同领域,有不同分布。
传统的特征提取算法,没有考虑新、旧数据不同分布的情况,没有考虑训练数据数据偏斜的问题。由于新、旧数据有不同分布,当差异较大时,若用从旧数据提取的特征表示新数据时,新数据会出现很多特征权重为0的现象。由于训练数据中新数据很少,若单独从中提取特征,提取到的特征不能很好地代表所有新数据。如果在这些特征的基础上,对训练数据和目标任务的数据进行表示,并进行文本分类,必然不会取得很好的效果。
发明内容
针对现有技术中存在的问题,本发明提供一种提取文本模型特征进行分类算法,该算法对文本模型提取到的特征既不过于倾向于训练数据中的旧数据,也不单纯从训练数据中的少量新数据中获得,能够取得较好的分类效果。
为解决现有技术中存在的技术问题,本发明采用如下技术方案:
1、一种提取文本模型特征进行分类算法,包括如下步骤:
第一,对文本模型的训练数据采用信息增益算法(IG,Information Gain)获得特征的权值其算法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410765214.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据查询方法及装置
- 下一篇:一种导航设备的搜索自动补全方法





