表观基因组是目前多组学研究的热点,而DNA的甲基化修饰又是表观遗传研究中最重要的领域。DNA甲基化修饰是基因表达调控的重要方式,在分化、发育、基因印迹、X染色体失活与维持组织特异性等众多方面起着重要作用。同时在许多复杂疾病,如癌症、神经系统紊乱、糖尿病等,的发生发展也与DNA甲基化有着千丝万缕的关系。
在后基因组时代,随着高通量技术成本的日益降低,海量组学数据与研究结果让我们越来越认识到生命现象的复杂性。目前的研究前沿越来越倾向于以多组学的角度:从遗传和表观遗传到转录和代谢,从机制到表型,进行整合研究以得到全局结果。
在当前的科研需求下,Illumina的甲基化芯片Infinium MethylationEPIC BeadChip(简称850k芯片),提供了性能优越且经济可靠的甲基化解决方案。850K芯片是在原450K芯片巨大成功的基础上,推出了新一代的DNA甲基化芯片。在数据上既包含了原450K芯片91%的位点,以充分利用原有450K珍贵数据,又增加了413,745个位点(总共853,307个CpG位点)。850K芯片全面覆盖基因启动子区、基因编码区、CpG岛以及ENCODE及FANTOM5计划中发现的增强子区(图 1)。
850K甲基化芯片不但是肿瘤和其他复杂疾病研究的有力工具,也是目前最适合表观全基因组关联分析(EWAS)研究的DNA甲基化研究技术。
图 1 Illumina BeadArray与850K 甲基化芯片的示意图。芯片上有超过850,000个直径3微米,间距约5.7微米的硅珠,每个硅珠上覆盖了几十万条特定的寡核苷酸探针,对目的CpG位点的甲基化进行检测。
一、 芯片原理
850K芯片沿承了Illumina应用在450K芯片中经典的BeadArray技术,通过Infinium I及II探针设计,在对目标区域全面覆盖的同时也保证数据稳定可靠。
Infinium I的设计是通过两种不同的探针的信号值来区分甲基化的CpG位点(C)和非甲基化的CpG位点(T)的比例;而在Infinium II的设计中,每个检测位点只设计一个探针,通过比较该探针掺入的两种荧光的信号值来计算目的位点的甲基化比例。详见下表与图3。
表格 1 Infinium I 及Infinium II探针原理
探针类型 | 探针介绍 | 反应类型 | 标记类型 | β值计算方式 | ||
Infinium I 探针 | U型磁珠:尾部为A,用来检测非甲基化位点(T) | 单碱基延伸原理:仅当探针最后一个碱基与模板配对时,荧光标记的核苷酸才能掺入并被检测到荧光信号。 | ddTTP-DNP | β=M/(M+U+100) | ||
M型磁珠:尾部为G,用来检测甲基化位点(C) | ||||||
Infinium II 探针 | 只使用一种磁珠,探针末端为C,与目的位点的前一个碱基配对,只延伸一个碱基(ddATP-DNP, ddGTP-BioT分别与非甲基化或甲基化位点配对)。 | 普通延伸反应 | ddATP-DNP | β=G/(G+A+100) | ||
Infinium I与Infinium II 探针设计原理图
图 2 Infinium I与Infinium II 探针设计原理图:在InfiniumI设计中,每个甲基化位点都对应设计有两种探针:M型磁珠、U型磁珠分别检测甲基化位点(C)。和非甲基化位点(T)。根据单碱基延伸的原理,仅当探针最后一个碱基与模板配对时,荧光标记的ddNTP才能掺入并被检测到荧光信号,并根据M和U的荧光信号的结果计算甲基化值。而Infinium Ⅱ 探针只使用一种磁珠,通过延伸的A或G碱基(分别对应非甲基化与甲基化位点)的信号值计算目的位点的甲基化程度。
二、 850k芯片技术特点:
1. 全面的基因组覆盖范围:检测>853,000个CpG位点,全面覆盖CpG岛、启动子、编码区、开放染色质和增强子。此外还包括CpG岛外的CpG位点,已知DMR位点,脱氧核糖核酸酶超敏位点以及miRNA启动子区域。
2. 高质量的数据:同时采用Infinium I及II探针设计,使检测范围最大化。
3. 分辨率高:单碱基分辨率,可以直接检测到发生甲基化的确切位点。
4. 可重复性高: 自身技术重复相关性R2 > 0.98;与450K交集探针间相关性R2 > 0.98。
5. 起始模板量低:仅需 250ng,大大节约了样品量。
6. 适用于FFPE样本。
三、 850K芯片探针覆盖技术参数
850K芯片传承了450K芯片对基因组的功能元件的设计理念,有目的性地对CpG岛以及基因及实现了空前全面覆盖,下图及表格统计展示了850K芯片对于不同染色体、基因组功能元件的覆盖及分布。以上的设计不但可从泛-增强子及编码区域角度分析甲基化组,还在全基因组表观遗传关联研究(EWAS)中发挥重要作用。850K芯片中包含的一系列有价值的位点:
Ø CpG岛及岛外的CpG位点(Island:17.8%, Shore: 16.9%, Shelf: 8.8%, Open sea: 56.5%)
Ø 人类胚胎干细胞中的非CpG甲基化位点(CHH位点)
Ø 肿瘤vs正常(多种类型的癌症),以及不同组织间的差异甲基化位点
Ø FANTOM5增强子, ENCODE开放染色质和增强子
Ø DNase I超敏位点
Ø miRNA启动子区域
图 3. 850K 芯片探针在不同染色体及基因组功能元件中的分布。
四、 芯片数据的可靠性
Illumina Infinium Methylation EPIC是一款优秀的芯片,秉承了450K芯片可靠而稳定的特点。基于Infinium I 与InfiniumII的灵活设计,使得探针可通过简并碱基的原则覆盖于CpG位点密集的区域,同时保证目的位点的结果不受到周围CpG位点的影响。
芯片数据的稳定与可靠可以通过芯片的技术重复直观的体现,对于850K芯片,其本身的技术重复相关性R2>0.98,而且850K芯片与450K芯片有交集的探针的结果的相关R2>0.98。此外,相同样本在Illumina甲基化芯片与WGBS两种技术平台中产出的数据相关性R2>0.95。
图 4 EPIC芯片自身技术重复间的相关性以及与450K有交集的探针间的相关性R方都在0.98以上。此外450K芯片与WGBS的交集位点的相关性R2>0.95
五、 850K芯片对于FFPE样品的通用性
目前生物样本库中的大部分标本都是FFPE样本,这些样本不但数量众多,而且多包含有详细的病理及随访信息,是进行疾病机制研究的珍贵材料。不过经福尔马林固定、石蜡包埋后的FFPE样本所抽提的DNA质量很差,不但片段化严重,而且会出现大量的未知化学修饰与交联。Illumina为FFPE样本的甲基化检测改进了protocol,对于FFPE样本可获得更可靠而稳定的结果。经验证,对于相同样本分别进行FFPE与新鲜冰冻处理两种保存手段下,以及FFPE样本的技术重复,850K芯片都展示了稳定与优质的数据[1, 2]。
图 5 850K芯片对于FFPE样本的可靠性:在官方文件以及验证性相同标本分别用FFPE处理与新鲜冰冻处理,850K芯片结果的重复相关性R2>0.98(R=0.994)。850K芯片对于FFPE样本的技术重复相关性(R2>0.98)及检出率(>90%)。
六、 样本要求:
1. 样品总量:每个样品总量不少于2ug。
2. 样品浓度:最低浓度不低于50ng/ul。
3. 样品纯度:OD 260/280值应在1.7~1.9 之间。
4. 样品质量:基因组完整、无降解、无RNA污染,无其他基因组DNA污染。
5. 样品运输:DNA低温运输(-20℃);且在运输过程中请用封口膜将样本密封好,以防出现污染。
七、 数据分析内容
基础分析 |
1.原始数据预处理 |
2.数据归一化(甲基化位点总表,含注释信息) |
3.QC结果(beta值密度曲线,聚类图,PCA图,相关性图) |
4.差异甲基化位点(含注释信息) |
5.差异甲基化位点的染色体分布 |
6.差异甲基化位点的基因功能注释与富集 |
7.差异甲基化位点的热图展示 |
高级分析 |
1.特定基因组区段的DMR展示 |
2.甲基化与转录的关联分析,网络图的构建 |
3.差异甲基化基因中邻近启动子区域motif的识别 |
4.其它个性化分析内容。 |
八、 甲基化分析结果示意
1、数据QC结果
通过探针的β值密度曲线、样本的非监督聚类图和PCA图等,整体的展示项目中所有样本,在组间与组内的差异以及相互关系,不但能够对样本整体数据质量有一个直观的了解,同时还可以考察数据结果与项目设计是否吻合。
图 6数据QC图。A. 探针beta值密度曲线图,将原始数据进行标准化及过滤掉不合格的探针后,对各样本的探针的β值的分布曲线进行展示,可以比较实验组与对照组间整体的甲基化分布是否有差异,也可以考察是否有个别样本的整体甲基化程度发生了改变。B. 样本的非监督聚类聚类图,数据接近的样本,在关系树中位于更近的位置。C. PCA图,在二维或三维空间中以空间距离展示样本间相互关系的远近。对芯片中超过85万探针(特征)进行降维处理,以2~3个主成分差异代替85万个探针的差异。D. 样本的相关性图,通过热图矩阵的形式,分别比较每个样本与其余所有样本间的相关性,可将聚类结果结合相关性图进行展示。聚类图、PCA图以及相关性图,都是直观展示样本间相关性、组间差异以及组内差异的QC结果图,用于考察实验数据与项目设计是否吻合。
2、甲基化差异结果
Ø 差异甲基化位点
差异甲基化的筛选是整个数据分析过程中的主要环节,其中包括差异甲基化位点以及差异甲基化区域(DMR)。
组间的差异甲基化位点中有两个关键值:
Ø Δβ值:直接用两组的各CpG位点的甲基化值(β值)相减得到。
Ø p值:当每组样本在3个以上时,DMP 的p值是利用 R 语言的 limma 包中的线性模型计算得到。并对p值采用 Benjamini & Hochberg 方法进行多重检验纠正。
图 7差异甲基化位点在染色体定位,高甲基化或低甲基化的基因是否有染色体的偏向性或成簇分布的特点。其中红色代表实验组高甲基化位点,绿色代表实验组低甲基化基因位点,灰色表示甲基化位点在组间没有变化。热图展示显著差异的CpG甲基化位点在不同组间各样本中的分布,并可作为样本分类的标志物。
Ø 差异甲基化区域(DMR)
在基因组中差异甲基化位点经常会成簇出现,形成一段差异甲基化区域(Differentially Methylated Region, DMR)。DMR代表着某个染色体区段整体的去甲基化或超甲基化,区段的范围小至数百bp,大到Mb级别[3]。DMR在被认为在基因印记调节、细胞分析等过程中起重要作用。
图 8. DMR示意图。在染色体的Kb以至Mb范围内展示组间的甲基化修饰程度的差异。
3、甲基化与基因组或转录组共同分析
生命现象的背后有着复杂的遗传基础与精密的调控分子机制,基因组的DNA序列构建了遗传基础;甲基化修饰、组蛋白修饰和lncRNA的转录前调控,非编码RNA(包括miRNA, lncRNA与circRNA)的转录后调控,以及翻译后的蛋白修饰等组成了复杂而精密的调控过程;mRNA、蛋白的表达高低或修饰情况以及代谢物的丰度是以上过程为适应环境而共同作用的目的和结果。仅靠单一组学的分析只能在单个层面中得到信息,并不能从整体上理解疾病与生命过程发生的来龙去脉。在后基因组时代,科学研究会朝着更全面、更精细的方向发展,多组学研究以至系统生物学研究将是一个大趋势。
我们为多组学研究提供了整体解决方案,其中也包括数据分析的思路与结果展示的方法。多组学的分析可通过基因组-转录组、基因组-甲基化-转录组、甲基化-转录组等不同形势。
图 9. 甲基化高级分析:A. 甲基化与表达谱相关性热图,此类型的图也可展示其他不同组学的相关性。B. 基因组、转录组与甲基化组变异通路图,可在同一张图上展示通路中的基因组、转录组与甲基化组等不同组学上的变异,以及多组学的变异对通路的影响。C. 关键基因的多组学相关性图,以相关性图的形式,同时展示关键基因在基因组、转录组与甲基化等多组学层面上的相关性,共变异或甲基化状态。
专注组学 精准定位 用心服务 帮您实现科研价值
——