iTRAQ数据的一种处理方式举例
在现今组学研究日益升温的大背景下,iTRAQ技术作为一种高通量、高效率的蛋白组学研究手段,越来越得到研究者们的重视与青睐。然而,当大家拿到试验结果报表时,却往往会被上面各列令人眼花缭乱的数据弄得头晕眼花。尤其是在查看对于试验结果而言最有意义的相对定量数据时,各个不同的标之间互相比较的FoldChange值很多时候会让人感到无所适从——不知道该如何处理这些比值,从而筛选出差异表达蛋白进行下一步的功能分析。这里我们结合一个实际案例,给大家介绍一种iTRAQ数据的处理方法。
首先,我们来简单看一看iTRAQ结果列表里都会有一些什么内容,下图就列举了一个比较常见的iTRAQ结果列表:
需要注意的是,不同的公司或研究机构提供的结果报表往往不尽相同,但总体来说大同小异,因为对于研究者而言,最需要的数据毫无疑问就是第一列蛋白编号以及相对定量的各列(即各个不同的标之间互相比较得出的FoldChange值),这些信息无论是在哪里做的iTRAQ实验,结果报表中都会提供的。
正如上图中展示的那样,蛋白的相对定量往往以各个不同的标之间的比值的方式呈现,也就是说,此时我们拿到手的数据,已经是经过比较之后的FoldChange值,已经不再是原始数据了。这种情况下,我们该如何查找并筛选差异表达的蛋白呢?
最简单的一种方法当然是直接给FoldChange值设定一个阈值(例如2),凡是小于这个阈值的我们都不予采纳,同时对各个分组的重复样本求取其平均值。然而这样的处理方法显然过于“简陋”,会造成较大的误差。下面,我们就结合一个具体案例(拟南芥发芽过程中盐处理和酸处理对植株的影响),给大家介绍一种更好的处理方法。
上图是试验结果相对定量信息的截图,由于篇幅所限,只展示了114/113、115/113以及116/113三组FoldChange值,而在完整的报表中,不仅有以上三组FoldChange值,八个标之间所有排列组合的互相比较结果都有提供。下表是实验设计:
而我们要介绍的这种处理方式,其核心思想就在于:无论是哪两个标记互相之间比较的FoldChange值,我们通过人为挑选对实验有意义的分组,将它们与共同的背景进行比较,并将这些比较后的数值作为原始数据,从而筛选出其中的差异表达蛋白。
这种方法说着很拗口,但实际上在应用于这类iTRAQ数据的处理时却并不复杂,因为各个标记之间的比值是现成的,我们只需要将它们从列表里挑选出来再放到同一张新建的表里就行了。
具体的操作过程是:第一步,将列表中114/113、115/113、116/113、114/117、115/117以及116/117(共计六列)的数值挑选出来,作为T1组(盐处理组)的原始数据;
第二步:将列表中118/113、119/113、121/113、118/117、119/117以及121/117(共计六列)的数值挑选出来,作为T2组(酸处理组)的原始数据;
第三步:将列表中113/117和117/113这两列的数据挑选出来,作为对照组的原始数据;
第四步:将以上三步所挑选的数据列,按照下表中的分组整合到一个新的表里,并把它们对应的蛋白ID也整合成一列,放到新的列表中,从而构成一个数据矩阵:
下图就是整合完毕后所获得的数据矩阵(部分)截图,其中红色为Control,蓝色为T1,黄色为T2:
接下来,我们就可以使用这个矩阵表作为原始数据进行差异蛋白分析了。
需要注意的两点:
l 本例中,除去挑选出的这14列, iTRAQ结果报表中的其余各列FoldChange值(如114/118、115/121以及119/116等)均不予考虑;
l 在第四步进行数据整合时,尤其需要注意蛋白ID的顺序,应使之一一对应于各个FoldChange值,同时,如果某个蛋白在某一组或几组相对定量中没有表达,应赋予其0值(这里我们使用了OmicsBean组学数据整合分析云平台系统中的“SamplesMerge”小工具进行操作,它可以很方便地自动实现上述操作;如果是人工手动整合,则建议最好是能够使用脚本实现,以避免人为错误)。