Methyl-arginine数组蛋白质
众所周知,蛋白质翻译后修饰(PTMs)可以调节一系列调控人类生物学各个方面的细胞过程。PTM添加或去除酶(writer and erasers)和PTM结合蛋白(reader)的三层体系被广泛应用于各种不同口味的食物中,大大增加了人体功能的复杂性(Chen et al, 2011;Khoury等人,2011)。在任何时候,底物都可以通过单个或多个修改来靶向,从而导致表达、定位、活性或绑定伙伴配置文件的改变(Woodsmith & Stelzl, 2014)。数以万计的注释位点的集合帮助计算系统分析了它们的演化和相互作用(Beltrao et al, 2012;Minguez等人,2012;Woodsmith等人,2013年)。特别是近年来记录到的精氨酸甲基化事件增加,促进了他们的系统研究(Bremang et al, 2013;郭等人,2014;Sylvestersen等人,2014;Geoghegan等人,2015;Larsen等人,2016)。
尽管对甲基化位点的可靠识别仍存在问题(哈特-史密斯等人,2016),但是高通量数据集集合和小规模研究(详见Biggar & Li[2015])都强调精氨酸单甲基化和二甲基化影响广泛的生物过程。事实上,最近的一项大规模研究发现表达的蛋白质组中至少7%的精氨酸是单甲基化的(Larsen et al, 2016)。全面的蛋白甲基转移酶特异性相互作用网络(Weimann et al, 2013)和甲基转移酶敲除细胞培养研究(Shishkova et al, 2017)正开始定义广泛的分子靶标,以支持遗传研究,显示9种已识别的精氨酸甲基转移酶(PRMTs)在体内的广泛影响。PRMT1和PRMT5已经被证明是至关重要的,在淘汰赛中显示出胚胎的致命性(Pawlak等,2000;大多数其他PRMTs显示了不同形式的发育或细胞缺陷(在Blanc和Richard[2017]中详细回顾)。此外,PRMTs在癌症中被很好的记录为失调,在一些研究中观察到PRMT1、CARM1 (PRMT4)和PRMT5的过表达(Yang & Bedford, 2013)。
在机制层面上,已报道的甲基精氨酸位点与它们的同源蛋白阅读器和写入器之间的关系以前主要是在体外使用短合成多肽进行研究。例如,PRMT1和PRMT6已经被证明更倾向于精氨酸甘氨酸基序(RG/RGG基序[Thandapani et al, 2013],从这里开始被称为RG基序),而CARM1优先靶向脯氨酸侧基序(Osborne et al, 2007;Kolbel等人,2009年;Gui等人,2013)。到目前为止,甲基精氨酸结合都铎结构域已经在15个蛋白质上进行了注释,关键剪接调节剂SMN1中的分离都铎结构域显示出对含有缩氨酸的甲基化RG结构域的结合偏好。此外,与单甲基精氨酸相比,均铎结构域与多肽结合的亲和性更高(Tripsianes et al ., 2011;刘等人,2012)。事实上,许多蛋白质已经被定义为多个精氨酸甲基化位点(Larsen et al, 2016),然而整个长度序列之间的修饰之间的潜在相互作用还没有得到很好的研究。此外,在人类细胞中,修饰过的残基之间如何机械地调解特定的结合偏好还不清楚。
PTMs已被证明聚集在蛋白质固有的无序区域内,这是蛋白质组中普遍存在的特征(Woodsmith et al, 2013)。对这些区域中的一部分进行了广泛的研究,对这些非结构化区域的调控的实验见解是有限的。事实上,尽管后续的生物信息学研究已经改进了通过整合不同数据类型来识别功能性PTM集群的方法(Dewhurst et al, 2015),但机械地解剖它们已被证明是一个重大挑战。体外多肽研究为短修饰序列的生物物理结合特性提供了深入的认识,但不能解决在体内识别的长序列的全部复杂性。由于包含这些区域的长时间内在紊乱的蛋白质序列位于经典结构-功能范式之外,因此需要新的方法来理解它们在细胞环境中的调控。此外,考虑到包含修饰性紊乱区域的大量人类蛋白也与神经退行性疾病和癌症有关,理解如此大的低结构复杂性区域如何被用作调节元素对于更好地理解人类细胞生物学至关重要(Babu, 2016)。
在这里,我们强调精氨酸甲基化可以根据聚类流行程度大致分为两类,或分离或修饰数组。在甲基化残基中存在两种不同的类别,这是由结构背景的差异、突变标记和靶蛋白的表达分析所支持的。然后,我们通过实验详细分析了异质核RNP (hnRNP)突触结合质RNA相互作用蛋白(SYNCRIP)中高度甲基化的非结构区域的功能需求。为了全面了解整个紊乱区域,我们采用遗传方法,在定量免疫沉淀实验中,使用37个完整的突变体,确定了c -末端SYNCRIP尾巴上的19个精氨酸拉伸位点的结合偏好。为了定义精氨酸阵列的未修饰和修饰状态,我们分别使用甲基转移酶PRMT1和甲基结合蛋白SMN1作为精氨酸和甲基精氨酸的功能读数。值得注意的是,相同的蛋白序列可以介导不同的累积结合机制,在修饰和未修饰的状态。尽管这两种间质都随精氨酸含量的增加而增加,但未经修饰的精氨酸在连续拉伸中更受青睐,这与它们在结构混乱的阵列中无论位置如何都能协同工作的被修饰的精氨酸形成了直接对比。
本研究揭示了在低结构复杂性区域中广泛的RG重复是如何产生累积结合机制的,此外,广泛的PTMs在单个重复区域中允许第二种截然不同的识别模式。
结果
含蛋白甲基精氨酸阵列的系统表征
为了研究蛋白质甲基化的系统性趋势,我们最初通过PhosphoSitePlus获得了所有精氨酸和赖氨酸甲基化位点的列表(从PhosphoSitePlus.org下载)。然后将这些PTMs映射到惟一的Refseq标识符,得到9339个精氨酸修饰和4555个赖氨酸修饰(表S1)。我们和其他人之前已经证明PTMs可以跨线性蛋白序列聚集(Beltrao et al, 2012;Woodsmith等人,2013),一项已经扩展到3D蛋白质结构的发现(Dewhurst等人,2015)。虽然蛋白质结构提供了更详细的观点来研究PTM分布,但它们天生偏向于非结构化区域,数量有限,因此会对PTM数据集施加很大的约束。因此,我们进行了一项滑动窗口分析,计算了在一个线性蛋白质序列中20个氨基酸延伸的修饰残留物的数量(见材料和方法部分)。在短序列中累积的赖氨酸甲基化比例始终低于精氨酸甲基化的比例(图1A)。为了系统地描述这些甲基化精氨酸簇,我们首先研究了它们的序列背景。由于HEK293T细胞中大约31%的精氨酸甲基化位点最近被证明包含在RG基序中(Larsen et al, 2016),我们分析了这些聚类位点中该基序的倾向性。虽然更分散的精氨酸甲基化网站(1或2 methyl-Rs / 20-amino酸窗口)概括这近似30% RG主题内容,增加密度的甲基化与RG指出增加主题网站,54%≥4甲基化网站/窗口(图1 b)。这些聚集的,rg -motif驱动的甲基化位点也与与分离的甲基- rs相比向结构紊乱区域的大规模转移相关(图1C)。
精氨酸甲基化蛋白已被证明参与RNA加工和结合的多个方面,例如包含RNA识别基序和RNA解旋酶RNA结合域的蛋白优先被修饰(Larsen et al, 2016)。因此,我们检测了3个大型rna结合蛋白(RBP) PAR-Clip研究中甲基精氨酸簇的流行情况,这些研究定义了RBP的指令(Baltz et al, 2012;Castello等人,2012;Conrad等人,2016)。我们基于最大甲基- r聚类对蛋白甲基化靶点进行分类,发现随着修饰密度的增加,标记为RBPs的靶点蛋白的数量急剧增加(图1D)。这可能是聚集修饰的功能,因为许多分散的精氨酸甲基化事件的靶向蛋白的RBP注释率大大降低(图1D)。
接下来,我们试图在全长度蛋白质序列中定义甲基- r簇。因此,我们扫描了每个修改后的蛋白质序列,以进一步识别包含20个氨基酸窗口以上的多个或扩展阵列的蛋白质(请参阅材料和方法部分)。使用截止≥3近端修改,我们系统定义313 methyl-R阵列分布在273个蛋白质,含有1600精氨酸甲基化(表S2)的网站。这些序列分布在大范围内,长度可达182个氨基酸,102个蛋白质的甲基- r序列长度超过20个残基(图S1A)。一些蛋白质含有多个甲基- r阵列,如RNA处理蛋白EWSR1和GAR1(图1E)。尽管RG motifs在许多阵列中非常普遍,但对非RG驱动的甲基化阵列的motif分析表明CARM1也可能介导修饰聚类(图S1B)。