对高维数据进行降维的算法
发布日期:2021-06-29 11:41:52 浏览次数:4 分类:技术文章

本文共 968 字,大约阅读时间需要 3 分钟。

解析:

维度灾难:在高维情况下出现的数据样本稀疏,距离计算困难等问题。

缓解维度灾难的一个重要途径就是降维,通过某种数学变换将原始高维属性空间转变成一个低维子空间,在这个子空间中样本密度大幅提高,距离计算也变得更加容易。

、、主成分分析(PCA)、因子分析(FA)、独立成分分析(ICA)

Lasso(Least absolute shrinkage and selection operator, Tibshirani(1996)) 方法:是一种压缩估计,它通过构造一个罚函数得到一个较为精炼的模型,使得它压缩一些系数,同时设定一些系数为零。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。Lasso 的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和(RSS)最小化,从而能够产生某些严格等于 0 的回归系数,得到可以解释的模型。lasso通过参数缩减达到降维的目的;本身是一种回归方法。与常规回归方法不同的是,LASSO可以对通过参数缩减对参数进行选择,从而达到降维的目的。说到LASSO,就不得不说岭回归,因为LASSO就是针对不能做参数选择的问题提出来的。

PCA:

小波法分析:小波分析的实质就是将原始信号表示为一组小波基的线性组合。我们可以通过忽略其中不重要的部分来达到降维的目的。这种思想具体可以用傅里叶变换进行类比。傅里叶变换用不同频率的三角函数的和去拟合原始信号,对于每个单独的三角函数,只需要记录其相位和幅度即可,同时,利用相位和幅度可以完美的重构出原始信号。另外,由于高频分量往往是信号中的噪音,通过去除高频分量可以达到降维的目的。 

线性判别分析(LDA): 

拉普拉斯特征映射: 

局部线性嵌入:    

聚类分析:大家所熟知的如K-means等是一种面对小数据的无监督学习算法,可有效解决低维数据空间的聚类问题。然而在处理高维数据和大型数据等情况时,传统聚类方法往往会失效,这是由于高维数据常常存在很多冗余属性且数据在高维分布非常稀疏,距离函数失效。为了解决高维度数据的聚类问题,学术界提出了一种名为高维聚类的算法,具体分为基于属性约简(降维)的方法、基于子空间的方法等。其思想大概是通过特征抽取或者特征变换等方法将原始数据集从高维空间转换到低维空间,再利用传统聚类的思想进行聚类。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

转载地址:https://blog.csdn.net/zz2230633069/article/details/102236502 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:隐马模型(HMM)
下一篇:聚类算法的种类介绍

发表评论

最新留言

感谢大佬
[***.8.128.20]2024年04月23日 03时31分18秒