[发明专利]基于异构域迁移的舆情角色识别迁移系统在审
| 申请号: | 201811547553.3 | 申请日: | 2018-12-18 |
| 公开(公告)号: | CN109299783A | 公开(公告)日: | 2019-02-01 |
| 发明(设计)人: | 何慧;张伟哲;杨洪伟;方滨兴;李韬;周奉兰;白雅雯 | 申请(专利权)人: | 哈尔滨工业大学 |
| 主分类号: | G06N7/00 | 分类号: | G06N7/00;G06F16/953 |
| 代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 杨立超 |
| 地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 迁移 参数学习 角色识别 迁移系统 知识迁移 异构域 网民 谓词 学习 机器学习领域 技术手段 领域知识 数据挖掘 信息有效 学习模块 知识提取 单目标 复杂度 逻辑网 目标域 有效地 转换 源域 共享 融入 | ||
基于异构域迁移的舆情角色识别迁移系统,涉及数据挖掘和机器学习领域。为了解决现有技术面对纷繁复杂的网民信息无法进行有效地提取知识,不能在不同领域之间进行迁移学习,进而无法实现知识间接的共享的问题。所述系统为基于马尔科夫逻辑网的建立的舆情角色识别迁移模型,包括数据谓词化模块、结构学习模块、知识提取模块、知识迁移模块和参数学习模块,将领域知识谓词化转换成模型可以识别的知识进行结构学习并提取需要迁移的知识到目标域完成知识迁移,再通过参数学习模块进行参数学习获得迁移学习后的模型。采用将转换复杂度融入领域距离以及考虑单源域到单目标域的迁移学习界限的技术手段,实现了面对纷繁复杂的网民信息有效地提取迁移。
技术领域
本发明涉及一种舆情角色识别迁移系统,涉及数据挖掘和机器学习领域。
背景技术
迁移学习从源域和目标域的输入空间是否是同一特征空间来说,分为同构迁移学习和异构迁移学习,影响迁移学习效果的因素除了具体模型的选择,领域距离也是一个很重要的因素,在迁移学习界限的相关研究中,研究者们都会首先对领域距离给出定义,因为这在最后的迁移学习界限分析中会用到,然后利用各种已知理论推理得出最终的迁移学习界限,然而,目前关于异构关系数据的单源域到单目标域的迁移学习界限,与在实验数据上的表现趋势有所差距,这可能是因为现有计算方法没有将异构域转换的损失考虑在内,从而导致与在实验数据上的表现趋势有差距。
从国内外文献可以大体看出,如今,迁移学习越来越受到学者的关注与重视,每年出现关于数据挖掘和机器学习的顶级会议以及著名期刊上的有关迁移学习的文章越来越多,研究涉及各个领域,现在国内外异构域迁移学习的研究已有较多成果,研究者们提出了各种异构域转换方法,都只是在最小化异构域转换过程中的损失,但是几乎没有研究者分析这种信息损失对迁移效果的影响,这会给负迁移一个可乘之机,当源域和目标域的领域距离较大时,强行迁移会导致信息损失过大,且源域的知识对目标域的学习不会提供多少有用的知识。所以,给出一个衡量信息损失的测度问题值得深入研究。现有文献中关于领域迁移学习一般是为提高了算法速度而容忍知识域中存在不完整性和矛盾性,比如文献号为CN201410717615.6的基于马尔可夫逻辑网的关联规则迁移学习方法,该文献对迁移学习误差界限没有给相应说明。至于将领域迁移学习如何利用于舆情角色识别中,没现有技术没有记载。
发明内容
本发明的目的是提供一种基于异构域迁移的舆情角色识别迁移系统,为了解决现有技术面对纷繁复杂的网民信息无法进行有效地提取知识,不能在不同领域之间进行迁移学习,进而无法实现知识间接的共享的问题。
本发明为解决上述技术问题采取的技术方案是:
一种基于异构域迁移的舆情角色识别迁移系统,所述系统为基于马尔科夫逻辑网的建立的舆情角色识别迁移模型,包括数据谓词化模块、结构学习模块、知识提取模块、知识迁移模块和参数学习模块,首先利用数据谓词化模块将领域知识谓词化转换成模型可以识别的知识,然后利用结构学习模块进行结构学习并通过知识提取模块提取需要迁移的知识到目标域,利用知识迁移模块完成知识迁移,再通过参数学习模块进行参数学习获得迁移学习后的迁移模型,由模型评估进行模型效果评估,然后调节迁移的知识比以优化迁移模型。
数据谓词化模块基于马尔可夫逻辑网的知识表示形式将源域和目标域都进行数据谓词化。
结构学习模块是在已经定义的谓词的基础上,利用训练数据集训练,得到网络的结构,网络结构使用一系列一阶逻辑语句表示,使用LSM算法生成候选的一阶逻辑子句,每个子句后面都会有相应的WPLL值,值越大表示子句表达的知识越有价值;源域和目标域都需要结构学习;使用LSM算法生成比普通的结构学习算法更多的候选子句,用于增大迁移知识的可选择性。
知识提取模块,用于对结构学习得到的一阶逻辑子句提升为二阶子句进行知识抽象化,移除每个谓词的具体含义以实现领域之间迁移,源域和目标域通过结构学习得到的一阶子句,均抽象成二阶子句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811547553.3/2.html,转载请声明来源钻瓜专利网。





