[发明专利]一种基于双视图主动学习技术的跨语言文本分类方法无效
| 申请号: | 201110453251.1 | 申请日: | 2011-12-30 | 
| 公开(公告)号: | CN102567529A | 公开(公告)日: | 2012-07-11 | 
| 发明(设计)人: | 戴林;刘越 | 申请(专利权)人: | 北京理工大学 | 
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 | 
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 | 
| 地址: | 100081 *** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 视图 主动 学习 技术 语言 文本 分类 方法 | ||
1.一种基于双视图主动学习技术的跨语言文本分类方法,设源语言和目标语言分别表示为E和C,源语言训练集表示为TRe,另有额外的目标语言未标注文本集合表示为Uc;则跨语言文本分类方法具体步骤如下:
(1)构造双视图:利用机器翻译工具,将所有源语言文本翻译成目标语言,将所有目标语言文本翻译成源语言,则每一篇文本都有了两种语言的版本;将每种语言的版本看作是一种视图,则每篇文本都具有了两种视图,分别为E视图和C视图;对于TRe,其双视图版本表示为TR;对于Uc,其双视图版本表示为U;
(2)训练初始分类器:用TR作为训练集,首先利用其源语言的版本训练得到一个分类器Ce,再利用其目标语言的版本训练得到一个分类器Cc;训练得到的分类器需要能够给出一篇文章属于各个类别的概率;
(3)主动学习过程:
a)分别用Ce和Cc基于E视图和C视图对U中的文本进行分类,并计算分类概率;
b)选取出n篇Cc和Ce的平均可信度最低的文本,这些文本中包含了难于在源语言或者由源语言翻译为目标语言的训练集中学习到的分类知识,将其人工标注后,作为新的训练文本加入训练集;
c)选取出m篇Cc的可信度高于Ce的文本,使用Cc的分类结果为其做标注,然后将其加入训练集;选取出m篇Ce的可信度高于Cc的文本,使用Ce的分类结果为其做标注,然后将其加入训练集;
d)最后,利用新的训练集,重新训练Cc和Ce;
迭代执行a到d四个步骤I次;
以上n和m是不大于U中总文本数的正整数;I是正整数;
经过该主动学习过程,得到了两个增强的分类器Cc和Ce;
(4)分类过程:对于一篇待分类的目标语言C描述的文本,先利用机器翻译工具构造它的E视图,然后分别用Cc和Ce基于它的C和E视图进行分类;两个分类器会各自给出文本属于每个类别的概率值,取二者的平均值作为文本属于该类的最终概率值;最后,取概率最高的类别作为文本的类别。
2.根据权利要求1所述的一种跨语言文本分类方法,其特征在于,步骤(3)的c)中文本选取和标注的方法为:从U中选出所有Certainty(d,Cc)>h或者Certainty(d,Ce)>h的文本,表示为L;其中,h为可信度阈值,取值为(0,1)之间的浮点数;
对L中的每篇文本计算两个分类器的可信度之差Certainty_Diff(d,Ce,Cc)和Certainty_Diff(d,Cc,Ce),选出m篇具有最高Certainty_Diff(d,Ce,Cc)值的文本,表示为Ee;选出m篇具有最高Certainty_Diff(d,Cc,Ce)值的文本,表示为Ec;用Ce的分类结果标注Ee中的文本类别;用Cc的分类结果标注Ec中的文本类别;
其中,分类器C对文本d的分类可信度按下式计算:
Certainty(d,c)=Pc(y=i|d)-Pc(y=j|d)
这里,i和j是具有最大概率的两个类别;
分类器Cc和Ce的可信度之差按照下式计算:
Certainty_Diff(d,Cc,Ce)=Certainty(d,CC)-Certainty(d,Ce)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110453251.1/1.html,转载请声明来源钻瓜专利网。





