[发明专利]基于异构域迁移的舆情角色识别迁移系统在审
| 申请号: | 201811547553.3 | 申请日: | 2018-12-18 |
| 公开(公告)号: | CN109299783A | 公开(公告)日: | 2019-02-01 |
| 发明(设计)人: | 何慧;张伟哲;杨洪伟;方滨兴;李韬;周奉兰;白雅雯 | 申请(专利权)人: | 哈尔滨工业大学 |
| 主分类号: | G06N7/00 | 分类号: | G06N7/00;G06F16/953 |
| 代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 杨立超 |
| 地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 迁移 参数学习 角色识别 迁移系统 知识迁移 异构域 网民 谓词 学习 机器学习领域 技术手段 领域知识 数据挖掘 信息有效 学习模块 知识提取 单目标 复杂度 逻辑网 目标域 有效地 转换 源域 共享 融入 | ||
1.一种基于异构域迁移的舆情角色识别迁移系统,其特征在于,所述系统为基于马尔科夫逻辑网的建立的舆情角色识别迁移模型,包括数据谓词化模块、结构学习模块、知识提取模块、知识迁移模块和参数学习模块,首先利用数据谓词化模块将领域知识谓词化转换成模型可以识别的知识,然后利用结构学习模块进行结构学习并通过知识提取模块提取需要迁移的知识到目标域,利用知识迁移模块完成知识迁移,再通过参数学习模块进行参数学习获得迁移学习后的迁移模型,由模型评估进行模型效果评估,然后调节迁移的知识比以优化迁移模型。
2.根据权利要求1所述一种基于异构域迁移的舆情角色识别迁移系统,其特征在于,数据谓词化模块基于马尔可夫逻辑网的知识表示形式将源域和目标域都进行数据谓词化。
3.根据权利要求2所述一种基于异构域迁移的舆情角色识别迁移系统,其特征在于,
结构学习模块是在已经定义的谓词的基础上,利用训练数据集训练,得到网络的结构,网络结构使用一系列一阶逻辑语句表示,使用LSM算法生成候选的一阶逻辑子句,每个子句后面都会有相应的WPLL值,值越大表示子句表达的知识越有价值;源域和目标域都需要结构学习;使用LSM算法生成比普通的结构学习算法更多的候选子句,用于增大迁移知识的可选择性。
4.根据权利要求3所述一种基于异构域迁移的舆情角色识别迁移系统,其特征在于,
知识提取模块,用于对结构学习得到的一阶逻辑子句提升为二阶子句进行知识抽象化,移除每个谓词的具体含义以实现领域之间迁移,源域和目标域通过结构学习得到的一阶子句,均抽象成二阶子句。
5.根据权利要求4所述一种基于异构域迁移的舆情角色识别迁移系统,其特征在于,
知识迁移模块,用于源域和目标域之间的知识迁移,通过将源域和目标域得到的二阶子句相对应,然后选取在源域和目标域的二阶子句中,使用调节参数调整后,得到的WPLL值对应的二阶子句,对应的一阶子句作为目标域结构学习的结果。
6.根据权利要求3所述一种基于异构域迁移的舆情角色识别迁移系统,其特征在于,
参数学习模块,用于对迁移学习得到的目标域网络结构进行参数学习,即优化各个一阶逻辑子句的权重,得到最终的迁移学习舆情角色识别模型。
7.根据权利要求1、2、3、4、5或是6一种基于异构域迁移的舆情角色识别迁移系统,其特征在于,所述基于马尔科夫逻辑网的建立的舆情角色识别迁移模型,将转换复杂度融入领域距离,提出新的领域距离公式,提出单源域到单目标域的迁移学习界限计算过程,具体为:
假设源域空间XS下的一个分布样本集服从分布假设目标域空间XT下的一个分布样本集服从分布假定存在公共域空间XC下的样本集和分别对应源域样本集SS和目标域样本集ST转换到公共域空间下的样本集,其分布分别从服从于和
定义1转换函数集:转换函数集Ftr将源域空间XS下的样本xS和目标域空间XT下的样本xT转换到公共域空间XC下,完成领域转换;转换函数集Ftr的每个函数满足:ftr:XS/XT→XC;
第一类异构域转换方法,只对源域数据进行了转换,这是一种非对称的域转换方式;第二类异构域转换方法,对源域数据和目标域数据同时进行了转换,这是一种对称的域转换方式,给出两者的形式化定义;
定义2非对称域转换方式:当XT=XC时,转换函数集Ftr的转换方式为非对称域转换,此时转换函数集Ftr可重写为ftr:XS→XT;
定义3对称域转换方式:当XT≠XC时,转换函数集Ftr的转换方式为对称域转换;
先求得非对称域转换过程的迁移学习界限,然后对对称域转换下的迁移学习作相应的变换;
将噪声对函数值的扰动考虑在内,定义了描述转换函数集转换能力的度量,具体见定义4;
定义4经验转换复杂度:给定一个空间X下的分布D|X,样本集S={x1,...,xm}符合分布D|X,转换函数集Ftr将空间X下样本转换到另一空间X'下,满足:ftr:X→X',假设集H满足:则关于假设集H的转换函数集Ftr的经验转换复杂度定义为:
其中,σ1,σ2,...,σm为独立同分布变量,且服从值为{-1,1},p为0.5的伯努利分布;
定义5转换复杂度:关于假设集H的转换函数集Ftr的转换复杂度定义为:
假设集H,均是二分类函数h的集合,满足h:X→{0,1},且函数集均是对称函数集,即满足这在之后的推导中会用到,且f表示真实的标签函数,注意与转换函数ftr的区分,二者含义完全不同,分类误差表示为ε(h)=ε(h,f)=Ex~D[|h(x)-f(x)|];
1)、领域距离分解:
迁移学习界限的求取首先要解决的问题是领域距离的测量,领域距离的测量首先对该度量进行分解:
假设分布D1与分布D2属于不同的特征空间,分布D1→2表示由分布D1通过异构域转换得到的与分布D2属于同一特征空间的一个分布,则可以得到:
在不等式(2-3)中,分布D1→2与分布D2属于相同的特征空间,则根据独立同分布数据的距离一致性收敛不等式,有以下推导:
其中,假设另外,U1→2和U2分别代表的是分布D1→2和D2下的样本集,并且为了便于化简,使
不等号右边的部分为并且假设其中和都大于0,通过一系列变换和化简可以得到关系数据下真实领域距离与经验之间的差距为:
而且,因为分布D1→2与分布D2属于相同的特征空间,则根据同构下分布之间的经验距离计算公式可以得到:
所以,结合公式(2-5)和(2-6),并且,在此假设源域样本数和目标域样本数相同,都为m,则可以得到同构关系数据的领域距离公式:
其中,d2表示假设集H2的VC维;接下来将注意力集中在的界限推导上,为了便于后续的推导,在此令ED[h(x)]表示领域分布D下假设h的期望值,则根据散度的定义可以得到:
由于假设函数集均具有对称性,因此假设h2满足又因为h2的取值仅可能为0和1,所以上式可以如下继续推导:
以上完成了对领域距离的分解,接下来会对不等式(2-9)右边的具体的推导,得出最终的异构域转换下的领域距离公式;
2)、领域距离计算:
非对称异构域转化下的领域距离为:
对称异构域转换下的领域距离为:
3、单源域到单目标域的迁移学习界限推导:
首先,需要在领域距离与假设误差之间建立关联,给出了对称差异抽象假设空间对于任意的A,有:
对于每个表示的抽象假设空间集合中的任意两个抽象假设空间下分别具体化到两个领域中的假设集之间的差异;然后,根据该定义和领域距离的定义,可以进行如下推导:
对上式整理可以得到领域距离与假设误差之间的关联公式:
然后根据误差的三角不等式,这里虽然特征空间泛化到了抽象特征空间,但是对误差的三角不等式并没有影响,在此仍然适用,所以对分布D2领域的假设的误差运用误差三角不等式可以得到:
其中,和分别表示领域概率分布D1和D2的最小误差假设,λ表示的是在这两个最小误差假设下的误差值之和,当该值较大时,说明领域D1和D2之中,至少有一个领域是很难学习的,不能得到一个表现效果较好的分类器,若是如此,再谈迁移学习是没有意义的,我们进行迁移学习的前提是,参与迁移的领域都必须是可学习的,并且能够找到一个误差较小的模型;只有这样,才能通过异构域转换减小领域距离,从而最终达到减小目标域迁移学习误差的目的;
接下来,基于迁移学习的场景,假设参与训练的样本集S=(SS,ST),共含有m个数据,其中目标域样本集ST占总样本的比例为β,模型的最终目的是发现一个可以使得目标域分类误差最小的假设;
由于样本包含源域和目标域两个领域的样本,所以最终得到的针对目标域的分类假设函数的分类误差一定是与该假设在两个领域的分类误差相关的,所以在此定义一个关于源域和目标域的经验最小凸组合误差,如下所示:
其中α∈[0,1],从上式中可以看出,用来平衡源域和目中α标域的误差比重,当α为1时,经验最小凸组合误差仅仅由目标域的经验误差决定,当α为0时,经验最小凸组合误差仅仅由源域的经验误差决定;
接下来,需要衡量最小凸组合误差和目标域误差的差异,根据最小凸组合误差的定义和公式(2-36),通过增减项和应用关于误差的三角不等式,可以推导得到:
需要说明的是,与之间是存在差距的,两者假设的VC维,前者是后者的两倍;所以对于来说,公式(2-31)和公式(2-32)中涉及的目标域VC维dT应该变为2dT,其余保持不变;
然后,需要考虑经验最小凸组合误差和真实的最小凸组合误差εα(hA)之间的区别,这给出适用于关系数据的误差一致性收敛不等式,如下式所示:
这里,令不等式的右边小于等于θ,结合VC维的泛化误差界限,通过整理化简可以的到,下式至少有1-θ的可能性成立:
其中,τT和τS为固定误差值,大约为0.13;
然后,将公式(2-38)和(2-40)整理,综合可以有如下推导过程:
在此,关于异构关系数据的一对一迁移学习界限推导结束,最终得到的界限公式如下所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811547553.3/1.html,转载请声明来源钻瓜专利网。





