降维之PCA主成分分析原理
在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。如果分别对每个指标进行分析,分析往往是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结
Read more
3 posts
在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。如果分别对每个指标进行分析,分析往往是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结
本文主要研究监督学习,所谓的监督学习就是在给定的,有限的,用于学习的训练数据集合(training data)出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个集合,即假设空间;我们根据一定的评价准则,从假设空间中选取一个最优的模型,使它对已知的训练数据以及未知的测试数据在给定评价准则下有最优的预测,最优模型的选取由算法实现。所以统计学习方法有三个要素:模型、策略、算法。
笔者对机器学习这门课程的学习开始于二年级的《数据挖掘》,当时老师对数据挖掘中的常用的算法做了一些介绍,但这仅仅是个入门教学,我并没有深入了解的其中的原理。到现在笔者深刻的意识到ML的重要性,于是抽空看了一些这方面的资料,整理了这一份文档。