主成分分析(Principal Component Analysis,PCA),是对原有的复杂数据进行降维,保持数据集中对方差贡献最大的特征,去除噪音和冗余,从而有效地找出数据中最“主要”的元素和结构,主要影响因素区分各个样本,根据样本远近展示样本/分组间的相似性和差异性。
1. 矩阵文件
第一列为探针/基因/OTU名称,其余各列为各样品中相应检测值。(下图以基因reads数矩阵为例展示)
demo数据下载:counts.oecloud.xls
2.样本分组信息文件(非必选)
示例文件为样本分组信息,需包含列名 "Group"。
demo数据下载:sample_group.oecloud.xls
1. 图形输出
结果生成pdf、png格式,PCA 2D图,使用主成分1(PC1:Principal component 1)和主成分2(PC2:Principal component 2)作为X轴和Y轴绘制散点图,分别提供无标签及添加标签形式。
PCA 3D图使用主成分1、主成分2和主成分3分别作为X轴、Y轴和Z轴绘制散点图。
PCA 2D图,添加置信椭圆。
(1) 少于3个样本时,不进行主成分分析;
(2) 默认条件下,不对数据做任何处理,各平台数据过滤方式不同,请注意输入文件是否属于以下类型:芯片、转录组测序、微生物多样性OTU;
(3) 绘制置信椭圆,需添加样本分组信息文件,且组内生物学重复需为4个样本及以上;
(4) 导出PCA分析中间结果,即各主成分数据矩阵;
(5) 请使用本工具前,按照输入示例文件格式对数据进行修改;
添加字体参数-PCA-3D除外, 判断编码方式