聚类热图(Cluster heatmap)常用于大数据表数据关系的可视化展示,以便快速阅读和发现规律。
1. 表达量矩阵文件
第一列为基因/蛋白/代谢物名称,其余各列为各样品中相应表达量。
demo数据下载:fpkm.3rep.xls
2. 样本分组信息文件(非必选)
第一列为样本分析名称"Sample", 与表达量矩阵列名保持一致,第二列为分组名称"Group"。
demo数据下载:group.xls
3. 注释信息文件(非必选)
第一列为特征名称, 与表达量矩阵行名保持一致,其余各列为特征的注释信息。
demo数据下载:phenotype.xls
1. 图形输出
示例图片为默认参数下的聚类热图。示例图片中,一个小方格代表一个基因,其颜色代表该基因表达量大小,红色表示高表达基因,蓝色表示低表达基因。图片上方树形图表示来自不同实验分组的不同样品的聚类分析结果,左侧树状图表示对来自不同样本的不同基因的聚类分析结果。
2. 表格输出
若选择行/列聚类,将输出聚类后顺序文件,“heatmap.reorder_cluster_result.xls”。示例图片中,基因名顺序已为聚类分析后排序,并补充各样本表达量信息。
(1) 尽量新建全新的excel文件进行数据筛选,不在源文件操作。
(2) 少于2个样本时,不绘制热图;仅2个样本时,不对数据进行归一化;
(3) 默认条件下,行列聚类,输出聚类后排序列表;当行不聚类时,限制绘图特征数目(数据量)不能多于 65536 个;当行聚类时,特征数目(数据量)不能多于14000个;
(4) 若显示特征名称时,字符串太长,可选择对字符串(70个字符)进行截取;
(5) 某特征在所有样本中数值相等(方差等于0)时将自动删除,并提供warning文件;
(6) 存在相同特征时,将自动计算表达量之和且保留高表达特征,并提供warning文件;
(7) 分析前请检查数据是否完整,不允许有空值。
(8) 一款简单易操作的编辑器:Notepad++,下载地址:https://notepad-plus-plus.org/
(9) 修改文件可进行以下操作:
在原始转录组报告结果(未进行修改)中,单击右键,以notepad++方式打开文件;
新建excel文件,选中第一列,在"单元格格式"中选择"文本";
复制文本打开的源文件内容,粘贴到excel文件中,保存后进行修改。
(10) 修改文件切记:删除-整行/整列,而非"删除"或"清除内容"。