[发明专利]基于特征对的线性关系的数据分析方法有效
| 申请号: | 201710967812.7 | 申请日: | 2017-10-18 |
| 公开(公告)号: | CN107798217B | 公开(公告)日: | 2020-04-28 |
| 发明(设计)人: | 林晓惠;张艳慧;王珏 | 申请(专利权)人: | 大连理工大学 |
| 主分类号: | G16B40/00 | 分类号: | G16B40/00;G06K9/62 |
| 代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;侯明远 |
| 地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 特征 线性 关系 数据 分析 方法 | ||
1.一种基于特征对的线性关系的数据分析方法,其特征在于,步骤如下:
令F={f1,…,fp}表示特征集合,X={x1,x2,...,xn}表示生物样本集合,C={c1,c2}表示生物样本类标集合,Y={y1,…,yn}是n个生物样本的类标向量,其中,yt∈C,t∈{1,…,n};对于每一对特征fi和fj,1≤i≠j≤p,首先使用线性核函数在该特征对上构建SVM分类超平面αijfi+βijfj+γij=0,得到该特征对的线性组合关系;之后使用第一指标Δ和第二指标Γ,计算每对特征的线性组合关系的区分能力;特征对fi和fj的Δij和Γij计算方法如公式(1)-(4)所示:
Δij=|Pij(c1)-Pij(c2)| (1)
Γij=|uij(c1)-uij(c2)| (3)
其中:fit表示特征fi在生物样本xt上的取值;Pij(cl)表示类标为cl的生物样本中,特征对fi和fj的线性组合关系αijfi+βijfj+γij0的频率;Δij表示两类生物样本的αijfi+βijfj+γij0的频率差值的绝对值,取值范围是[0,1],Δij的值越大,表明该特征对的线性组合关系区分两类生物样本的能力越强;根据每一对特征的Δ值,对所有特征对进行降序排序;如果两对特征的第一指标Δ值相同,则采用第二指标Γ进一步比较两对特征的线性组合关系的区分能力;其中,为生物样本xt到直线αijfi+βijfj+γij=0的距离;根据排序结果,选择区分能力最高的、排序的前k≥1对特征,并利用简单多数投票方式构建融合分类器;
对于所选特征对fi和fj,其对应的线性组合关系为αijfi+βijfj+γij,则基于特征对fi和fj的分类规则如下:
若c1类样本中在特征对fi和fj的线性组合关系αijfi+βijfj+γij0的概率大于c2类样本中在特征对fi和fj的线性组合关系αijfi+βijfj+γij0的概率,当待预测样本在特征对fi和fj满足αijfi+βijfj+γij0时,则将待预测样本预测为c1类,否则预测为c2类;同理,在c1类样本中在特征对fi和fj的线性组合关系αijfi+βijfj+γij0的概率小于或等于c2类样本中在特征对fi和fj的线性组合关系αijfi+βijfj+γij0的概率,当待预测样本在特征对fi和fj满足αijfi+βijfj+γij0时,则将待预测样本预测为c2类,否则预测为c1类;
LC-k-TSP方法流程如下:
输入:训练数据集Data={(xt,yt),xt∈Rp,yt∈{c1,c2},t=1,2,...,n},特征集F={f1,f2,…,fp},选取的“特征对”数量为k;
输出:选取的特征子集S,k对特征对的线性组合关系和融合分类器;
开始:
(1)初始化:特征子集S=Φ;F中所有特征标记为未选状态;
(2)对于每一对特征对fi和fj,1≤i≠j≤p,使用线性核函数构造SVM分类器,得到该特征对的线性组合关系αijfi+βijfj+γij;
(3)根据公式(1)-(4)计算每对特征的第一指标Δ和第二指标Γ,并根据Δ和Γ对特征对进行降序排序,得到排序列表O;
(4)从O上的第一对特征开始顺次考察每一对特征的状态,选择两特征状态均为未被选择的特征对fi和fj加入已选特征对集合S,输出该特征对的线性组合关系,并设置特征fi和fj的状态为已被选择;
(5)重复(4),直至集合S中包含k对特征;
(6)根据S中每一对特征的线性组合关系,构建一个分类器;对k个分类器采用简单多数投票的方式构建融合分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710967812.7/1.html,转载请声明来源钻瓜专利网。





