[发明专利]基于稀疏隐式特征表达的有监督在线话题模型学习方法有效
| 申请号: | 201310146127.X | 申请日: | 2013-04-24 |
| 公开(公告)号: | CN103198152A | 公开(公告)日: | 2013-07-10 |
| 发明(设计)人: | 朱军;张傲南;张钹 | 申请(专利权)人: | 清华大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹 |
| 地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于稀疏隐式特征表达的有监督在线话题模型学习方法,涉及数据挖掘、机器学习领域。该方法包括:采用在线学习方法对训练集中的文档及文档中的每个单词分别进行基于稀疏表达的隐式特征提取,得到多组特征向量;根据训练集的特征向量和训练集中文档的类别信息训练分类器,得到分类器的特征向量,分类器特征向量的每个类别对应于训练集中文档的类别;对待识别的所有文档提取特征向量;待识别文档的特征向量与分类器每个类别的特征向量分别做内积,内积的最大值对应训练集的类别作为待识别文档的识别结果。该方法通过采用在线学习的方式大幅度提高了模型训练的速度,同时能够利用监督信息提高分类准确率。 | ||
| 搜索关键词: | 基于 稀疏 特征 表达 监督 在线 话题 模型 学习方法 | ||
【主权项】:
一种基于稀疏隐式特征表达的有监督在线话题模型学习方法,其特征在于,包括以下步骤:S1、采用在线学习的方法对训练集中的文档和文档中的每个单词分别进行基于稀疏表达的隐式特征提取,得到多组特征向量,特征向量的每个类别对应训练集中每个类别的所有文档以及文档的所有单词;S2、根据S1所得特征向量和训练集中文档的类别更新字典;S3、根据S1所得特征向量训练分类器,得到分类器的特征向量,分类器特征向量的每个类别对应于训练集中文档的类别;S4、将步骤S1、S2和S3进行一次称为一轮迭代,若迭代轮数等于给定常数则停止迭代,进入步骤S5,否则返回步骤S1,迭代轮数加1,其中迭代轮数初始值为0;S5、对待识别的所有文档进行特征提取,得到待识别文档的特征向量;S6、对待识别文档的特征向量与步骤S3所得分类器所有类别的特征向量分别做内积;S7、将步骤S6所得内积最大值对应训练集的类别作为待识别文档的识别结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310146127.X/,转载请声明来源钻瓜专利网。
- 上一篇:铬催化的乙烯共聚物粉末
- 下一篇:层级关系下数据记录访问控制方法和装置





