[发明专利]一种基于迁移学习的电力通信网数据质量提升方法在审
申请号: | 201810445948.6 | 申请日: | 2018-05-11 |
公开(公告)号: | CN108664607A | 公开(公告)日: | 2018-10-16 |
发明(设计)人: | 杨济海;李仁华;彭汐单;巢玉坚;邓永康;伍小生;田晖;郑富永;王华;付萍萍;胡游君;邱玉祥;吕顺利;周鹏;邓伟;刘皓;蔡新忠;查凡;王宏;丁传文;刘洋;李石君;余伟;余放;李宇轩;李敏;彭亮;彭超;陈雪莲;陈艳华 | 申请(专利权)人: | 国网江西省电力有限公司信息通信分公司;南瑞集团有限公司;武汉大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/06;G06K9/62 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 鲁力 |
地址: | 330077 *** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 目标领域 电力通信网 集合 质量提升 标签 迁移 源领域 条件概率分布 边缘分布 均值算法 判别分析 样本分布 映射空间 预测结果 不一致 测试集 投票法 训练集 有效地 映射 学习 预测 | ||
本发明涉及到一种基于迁移学习的电力通信网数据质量提升方法。首先对集合L运用核判别分析,找到一种合适的核映射空间,并将L、U和O中的所有样本映射到核空间中,使得源领域和目标领域样本的边缘分布在核空间中非常接近。然后使用二分k均值算法在源领域中挑选和目标领域拥有相似的条件概率分布的样本。并在步骤1得到的核空间中,用步骤2挑选出的样本和目标领域有标记的样本共同训练一个模型,并为目标领域中没有标签的样本进行预测,最后得到对集合U的N种预测结果,运用多数投票法,确定集合U中样本最终的标签。本发明通过迁移学习有效地解决了训练集和测试集样本分布不一致的问题,解决了有标签样本较少而无法训练的问题,极大地节省了人力和财力。
技术领域
本发明属于电力通信网数据质量提升的技术领域,特别涉及到基于迁移学习的电力通信网数据质量提升方法。
背景技术
随着国家电网公司“三集五大”体系的深入发展,坚强智能电网建设迅猛,企业信息化工作全面推进。作为智能电网重要支撑的电力专用通信网络,通过三年的跑步前进迈入了信息化管理阶段,建成了一套总部和省公司“两级部署”,总部、分部、省公司、市县公司“四级应用”的通信管理系统“SG—TMS”。通过标准化规范化的项目建设以及对系统实用化的大力推进,“SG—TMS”已经深度融入数万电力通信专业人员的日常工作中,并且全面采集了数万台设备几年来的建设、运行、管理数据,积累下来的海量电力通信数据和众多外部系统数据、公共数据一同形成了开展大数据分析的基础。
想要从积累下来的海量数据中,高效、准确地寻找到所需的信息,信息分类是必不可少的第一步。通过分类,信息可以得到有效的组织管理,有利于快速、准确地定位信息。分类学习问题,是机器学习中一种重要的学习方法,目前已经得到广泛的研究与发展。
在传统分类学习中,为了保证训练得到的分类模型具有准确性和高可靠性,都有两个基本的假设:(1)用于学习的训练样本与新的测试样本满足独立同分布的条件;(2)必须有足够可利用的训练样本才能学习得到一个好的分类模型。但是,在实际应用中我们发现,这两个条件往往无法满足。首先,随着时间的推移,原先可利用的有标签的样本数据可能变得无法使用,与新来的测试样本的分布产生语义、分布上的区别。另外,有标签的样本数据往往很匮乏,而且很难获得,并且完全放弃过时的数据,过于浪费。
近年来,随着迁移学习的深入研究,上述问题得到解决。迁移学习是运用源领域中的知识来解决目标领域问题的一种新的机器学习方法,研究领域主要包含文本分类、文本聚类、情感分类、图像分类、协同过滤、基于传感器的定位估计、人工智能规划等。
在文本处理领域,Dai等人提出联合聚类方法,同时对文档以及词特征进行聚类,通过不同领域共享相同的词特征进行知识迁移。他们还提出迁移贝叶斯分类器,首先估计源领域数据的数据分布,然后不断修正使其适应于目标领域数据。Zhuang等人在概念层面上对文本进行处理,提出挖掘文档概念与词特征概念的迁移学习方法。在此基础上Long等人提出了双重迁移模型,进一步对概念进行划分,提高算法分类准确率。Gu等人提出共享子空间的多任务聚类方法,并应用于迁移分类中。
在图像处理方面,Dai等人提出一种翻译迁移学习方法,借助文本数据来辅助图像聚类。Raina等人提出一种新的从无标签数据进行自学习的方法,该方法利用系数编码技术从大量的无标签数据上构造高层特征,以提高图像分类性能。Zhu等人研究了一种异构迁移学习方法,利用图像上的Tag标签信息作为文本与图像之间知识迁移的桥梁,从而提高图像数据上的分类效果。
在协同过滤方面,Wang等人提出特征子空间的迁移学习方法来克服协同过滤中的稀疏问题,即从辅助数据中学习得到的用户特征子空间被迁移到目标领域中。Pan等人研究了协同过滤中带有不确定评分的迁移学习算法,即在优化目标矩阵分解中考虑不确定评分的辅助数据作为限制。Cao等人提出基于项目潜在特征共享策略的链接预测模型,性能上比单个任务的学习有所提升。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网江西省电力有限公司信息通信分公司;南瑞集团有限公司;武汉大学,未经国网江西省电力有限公司信息通信分公司;南瑞集团有限公司;武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810445948.6/2.html,转载请声明来源钻瓜专利网。