[发明专利]一种基于双视图主动学习技术的跨语言文本分类方法无效
| 申请号: | 201110453251.1 | 申请日: | 2011-12-30 |
| 公开(公告)号: | CN102567529A | 公开(公告)日: | 2012-07-11 |
| 发明(设计)人: | 戴林;刘越 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100081 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 视图 主动 学习 技术 语言 文本 分类 方法 | ||
技术领域
本发明涉及一种文本分类方法,特别涉及一种从源语言标注文本集合中学习得到目标语言文本分类器的跨语言文本分类方法,属于语言信息处理领域。
背景技术
在互联网和各类信息处理系统中,文本分类有着十分广泛的应用,如:新闻分类、科技文献分类、舆情分类等。文本分类的主要方法是通过机器学习的技术,从一批人工标注好类别的文本中学习规律,构造自动分类器。这里,人工标注的文本集合通常称为训练集。随着国际化的进程,越来越多的公司和组织需要处理多种语言的数据,如果为每种语言都建立一个分类器,则需要为每种语言都标注一批训练集,由此将会带来较大的人力和财力耗费。
跨语言文本分类旨在从现有的某种源语言描述的训练集中,学习得到适用于目标语言的分类器,从而降低标注训练集的工作量。当前,跨语言文本分类的主要方法是基于机器翻译的,即把训练集翻译成目标语言,再从中学习得到目标语言分类器。但是,由于文化等因素的差异,不同语言的文本,即便从属同类,所包含的新闻的主题不是完全相同的。这种现象叫做主题漂移。从翻译过来的训练集中学习得到的分类器,并不能完全适应目标语言,其分类效果会受到影响。
发明内容
本发明的目的是解决跨语言文本分类中源语言和目标语言之间的主题差异问题,让分类器通过主动学习更加适应目标语言,从而提升分类效果。
本发明是采用下述技术方案实现的:
一种基于双视图主动学习技术的跨语言文本分类方法,设源语言和目标语言分别表示为E和C,源语言训练集表示为TRe,另有额外的目标语言未标注文本集合表示为Uc;则跨语言文本分类方法具体步骤如下:
(1)构造双视图:利用机器翻译工具,将所有源语言文本翻译成目标语言,将所有目标语言文本翻译成源语言,则每一篇文本都有了两种语言的版本;将每种语言的版本看作是一种视图,则每篇文本都具有了两种视图,分别为E视图和C视图;对于TRe,其双视图版本表示为TR;对于Uc,其双视图版本表示为U;
(2)训练初始分类器:用TR作为训练集,首先利用其源语言的版本训练得到一个分类器Ce,再利用其目标语言的版本训练得到一个分类器Cc;训练得到的分类器需要能够给出一篇文章属于各个类别的概率;
这里,训练分类器可以采用各种机器学习算法,如支持向量机(Support Vector Machines)、朴素贝叶斯(Bayes)等。
(3)主动学习过程:
a)分别用Ce和Cc基于E视图和C视图对U中的文本进行分类,并计算分类概率;
b)选取出n篇Cc和Ce的平均可信度最低的文本,这些文本中包含了难于在源语言或者由源语言翻译为目标语言的训练集中学习到的分类知识,将其人工标注后,作为新的训练文本加入训练集;
c)选取出m篇Cc的可信度高于Ce的文本,使用Cc的分类结果为其做标注,然后将其加入训练集;选取出m篇Ce的可信度高于Cc的文本,使用Ce的分类结果为其做标注,然后将其加入训练集;
d)最后,利用新的训练集,重新训练Cc和Ce;
以上n和m是不大于U中总文本数的正整数,一般来说,取值较小的n和m可以使学习过程更加有效;迭代执行a到d四个步骤I次,I是正整数,一般来说,I越大学习越充分,但相对训练时间越长,成本越高。
经过该主动学习过程,得到了两个增强的分类器Cc和Ce;
(4)分类过程:对于一篇待分类的目标语言C描述的文本,先利用机器翻译工具构造它的E视图,然后分别用Cc和Ce基于它的C和E视图进行分类;两个分类器会各自给出文本属于每个类别的概率值,取二者的平均值作为文本属于该类的最终概率值;最后,取概率最高的类别作为文本的类别。
有益效果
本发明提供的方法对比已有技术,具有如下有益效果:
1、通过主动学习技术增强跨语言文本分类效果。不同语言间存在主题偏移的现象。本发明让从源语言训练集上训练的分类器继续在未标注的目标语言文本中主动的发现需要学习的主题漂移知识,进而更加适应目标语言,提升分类效果。同时需要人工标注的目标语言样本数大大减少。
2、利用双视图技术减少主动学习中的人工劳动。本发明利用两个基于不同视图的分类器,相互将自己可信度最高的分类结果给对方作为新的训练数据,达到互学习的目的。从而进一步的减少了在主动学习过程中需要人工标注的样本数目。
附图说明
图1是构造文本双视图的示意图,以中文和英文为例;
图2是学习过程的示意图,以中文和英文为例;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110453251.1/2.html,转载请声明来源钻瓜专利网。





