聚类热图

搜索
开发者:zzk  |  更新于1 月,3 周前  |  浏览量 36088

文献引用:Bioinformatic analysis was performed using the OECloud tools at https://cloud.oebiotech.cn.
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
聚类热图(Cluster heatmap)常用于大数据表数据关系的可视化展示,以便快速阅读和发现规律。

参数信息
  1. 基因表达量矩阵文件,请参考表达量示例文件(必选)
  2. 对数据进行log化处理后,颜色展示会更平滑。一般情况下,芯片/微生物/蛋白/代谢数据不需log处理,测序(基因/转录本)数据以2为底取对数。
    基因/蛋白/代谢物/微生物物种聚类可展示出变量间的表达模式相似度
    样本聚类可展示出不同样本/分组间的相似度,用于考察数据质量、重复性等

查看更多非必选参数

    是否在图片上显示基因/蛋白/代谢物/微生物物种名称,若名称长度大于60个字符,则自动截取后显示。
    是否在图片上显示样本名称,默认显示
  1. 样品分组信息文件,请参考分组示例文件(非必须)
  2. 表型注释信息文件,请参考注释示例文件(非必须)
    数据归一化方式,默认"row"
  3. 基于层次聚类划分行的簇数(非负整数),如不进行行聚类或分割,则忽略参数;
  4. 基于层次聚类划分列的簇数(非负整数),如不进行列聚类或分割,则忽略参数;
  5. 图片高度(非负整数),可调整,如10;
  6. 图片高度(非负整数),可调整,如8;
  7. 格子高度(非负数),可调整,如12,注意不与图片高度等比例,一般不建议修改
  8. 格子宽度(非负数),可调整,如15,注意不与图片宽度等比例,一般不建议修改
  9. 特征字符大小(非负数),可调整,如8
  10. 样本名字符大小(非负数),可调整,如10
    选择对字符串进行截取,保留前70个字符
    字体类型,默认"Arial"
    字体样式,默认"无"
    当导入样本分组信息文件时,是否按照分组重新对数据矩阵排序,默认为"否"
相关数据
  • 使用说明
  • 结果说明
  • 重要提示
  • 版本信息
  • 操作视频
    1. 1. 表达量矩阵文件

        第一列为基因/蛋白/代谢物名称,其余各列为各样品中相应表达量。


    fpkm.png


        demo数据下载fpkm.3rep.xls


    1. 2. 样本分组信息文件(非必选)

        第一列为样本分析名称"Sample", 与表达量矩阵列名保持一致,第二列为分组名称"Group"。


    group.png


        demo数据下载group.xls


    1. 3. 注释信息文件(非必选

        第一列为特征名称, 与表达量矩阵行名保持一致,其余各列为特征的注释信息


    p.png


        demo数据下载phenotype.xls




    1. 1. 图形输出

        示例图片为默认参数下的聚类热图。示例图片中,一个小方格代表一个基因,其颜色代表该基因表达量大小,红色表示高表达基因,蓝色表示低表达基因。图片上方树形图表示来自不同实验分组的不同样品的聚类分析结果,左侧树状图表示对来自不同样本的不同基因的聚类分析结果。

    heatmap.png

    1. 2. 表格输出

        若选择行/列聚类,将输出聚类后顺序文件,“heatmap.reorder_cluster_result.xls”。示例图片中,基因名顺序已为聚类分析后排序,并补充各样本原表达量信息


    聚类结果.png



  • (1) 尽量新建全新的excel文件进行数据筛选,不在源文件操作。

    (2) 少于2个样本时,不绘制热图;仅2个样本时,不对数据进行行标准化;

    (3) 默认条件下,行列聚类,输出聚类后排序列表;当行不聚类时,限制绘图特征数目(数据量)不能多于 65536 个;当行聚类时,特征数目(数据量)不能多于14000个;

    (4) 若显示特征名称时,字符串太长,可选择对字符串(70个字符)进行截取;

    (5) 某特征在所有样本中数值相等(方差等于0)时将自动删除,并提供oeweb_task.log日志文件;

    (6) 存在相同特征时,将自动计算表达量之和且保留高表达特征,并提供oeweb_task.log日志文件;

    (7) 分析前请检查数据是否完整,不允许有空值

    (8) 数据预处理(log化)公式:pre_data = log(data + 1) ,当数据中存在负数时,请选择"默认无需处理"

    (9) 行标准化方式默认为 zscore 标准化。

    (10) 一款简单易操作的编辑器:Notepad++,下载地址:https://notepad-plus-plus.org/

    (11) 修改文件可进行以下操作:

    1. 在原始转录组报告结果(未进行修改)中,单击右键,以notepad++方式打开文件;

    2. 新建excel文件,选中第一列,在"单元格格式"中选择"文本";

    3. 复制文本打开的源文件内容,粘贴到excel文件中,保存后进行修改。

    1.png

    2.png



    (12) 修改文件切记:删除-整行/整列,而非按退格键或"清除内容"。


  • 版本更新日期更新内容
    v1.82020.09.18整合多平台聚类热图工具
    v1.92020.09.27修复数据框报错问题
    v1.9.12020.10.23添加图片高宽参数
    v2.1.12020.10.28添加格子高宽,行列字符大小,归一化参数
    v2.1.22020.11.04添加长字符截取参数,重复id保留表达量高者并输出warning文件
    v2.1.32020.11.13针对目前所遇到的文件格式错误制定报错机制
    v2.1.42020.12.11添加字体参数, 判断编码方式
    v2.1.52020.12.26
    判断编码方式优化, 空数据矩阵检查, 非负数进行log化抛出报错
    v2.1.6
    2020.01.07
    数据检查顺序调整,cutree判断修改
    v2.2.02020.01.11
    行名替换代码修改
    v2.3.02021.01.22报错日志oeweb_task.log;检查方差值是否异常
    v2.4.02021.02.01画布长宽限制为正数
    V1.012021.03.07修改log化计算方式


  • 问题反馈