缩略词表:
fluorescence-activated cell sorting (FACS) —— 流式细胞荧光分选技术
whole-genome amplification (WGA)—— 全基因组扩增技术
multiple displacement amplification (MDA) —— 多重置换扩增
multiple annealing and looping-based amplification cycles(MALBAC)—— 多次退火环状循环扩增技术
micro-well displacement amplification system (MIDAS) —— 微孔置换扩增系统
UMI (Unique molecularidentifier)——特异性分子标签(UMI)
由于哺乳动物单细胞DNA含量少于10pg,所以全基因组扩增技术对于单细胞测序和微阵列分析至关重要。
目前WGA有以下几种技术:
PCR、MDA、MALBAC
但是所有方法都会引入基因组覆盖度不均造成的技术伪像。尤其是GC偏差、碱基错配、DNA嵌合体。所以我们应该根据所需的结果选择合适的方法。
例如,基于随机引物PCR的方法可实现高度均匀的扩增,但产量高
仅覆盖基因组的稀疏区域,因此非常适合长度少于长度60 kb的低分辨率拷贝数变异检测。
MDA具有更好的基因组覆盖度,适用于SNP的检测,但是由于MDA复制的高度不均匀性,做CNV检测则有很强的不确定性。
PCR和MDA都会产生嵌合DNA分子会被认为是插入或结构重排。
MDA中嵌合的发生机制
Lasken, R.S., Stockwell, T.B. Mechanism of chimera formation during the Multiple Displacement Amplification reaction. BMC Biotechnol 7, 19 (2007).
MALBAC复制均匀且覆盖度高
先进行预扩增,MALBAC引物随机退火至DNA模板。在高温下具有置换活性的聚合酶会放大模板,生成“半扩增子”。随着扩增和退火过程的重复,半扩增子被扩增为完整的扩增子,其3'端与5'端互补。结果,全扩增子末端杂交形成环状结构,抑制了环状扩增子的进一步扩增,而仅半扩增子和基因组DNA经历了扩增。经过5次的预扩增之后进入PCR流程。最终可获得93%的基因组覆盖度和平均25×的测序深度。
与MDA相比提高了复制的均一性,等位基因缺失率大大降低。 (1% for MALBAC versus 31%–65% for MDA )。MALBAC的假阳性率(4 ×10-5)这是由于聚合酶的忠实度较低,可以多用几个细胞做重复以降低假阳性率。MALBAC适用于同样表征的细胞的SNPs和CNVs检测。
MIDAS相比于MDA所需样本量减少1000倍,增加对模板的忠实度,减少污染。纳米孔反应也有这样的作用,假阳性率降低至4×10-9.
WGA之后的定量可由测序或者基因芯片完成。
首先要比对到参考基因组上,参考基因组可以从UCSC genome browser或者ensembl获得。
再比对之前需要检查reads的质量,切除低质量序列以及接头。长度过短的reads也应该舍弃以避免多重比对。之后比对到基因组上保留只比对到一个位置的reads,对于多重比对的reads有两种处理方法。一是舍弃,二是计算权重(每个reads的权重总和为1)。
对于拷贝数变异的检测,将肿瘤细胞和肺肿瘤细胞的拷贝数用归一化因子标准化之后进行比较,通常使用genome analysis toolkit (GATK)。为增加可信度一般会设置重复,另外细胞周期也会对CNV产生影响,应使用G1或G2/M期细胞,避免使用S期细胞。
单细胞测序面临的主要问题就是获得的遗传物质的量很少,上面我们已经介绍了扩增方法,但是这些方法都存在扩增偏差,这会使不同基因的mRNA的丰度受到影响。
在过去,扩增的单细胞RNA用微阵列芯片检测(2002)。不过目前已经发展出一些灵敏度较高的单细胞测序技术,第一个单细胞测序方案发布于2009 Surani的实验室。最初的扩增方法是利用带有特殊锚定序列的poly(T)引物捕获以及反转录poly(A)RNA,获得的单链cDNA经过多聚腺苷酸化再结合带有特殊锚定序列的poly(T)引物,得到双链cDNA。cDNA通过针对锚定序列的引物进行PCR扩增,在建立文库之前将产物片段化。
A. CEL-seq
多聚腺苷酸mRNA被oligo dT引物反转录,该引物含有Illumina P1 接头,细胞条形码,T7启动子,通常还会含有一个UMI。紧接着进行第二条链合成,从T7启动子开始,之后双链cDNA进行片段化,连接上含有Illumina P2接头。对reads的测序开始于mRNA的3‘端。
B. STRT-seq
使用Oligo-dT引物对多聚腺苷酸RNA逆转录,该引物还包含Illumina P1 接头和Pvul 限制性酶切位点。用一段带有Illumina P1 接头、UMI和template switch oligo (TSO)的引物接在转录本的5’端,然后合成双链cDNA。双链cDNA通过与Illumina P1 接头互补的引物扩增,片段化产物,用Tn5转座酶在片段上链接Illumina P2接头以及细胞条形码。3‘端被Pvul限制酶消化,仅保留5’端进行测序。
C. Smart-seq2
使用含有Oligo-dT的PCR引物对多聚腺苷酸RNA逆转录,同样的引物作为TSO的一部分被添加在模板链5‘末端。PCR扩增后,产物片段化,由Tn5转座酶在3’和5‘末端分别加上不同的引物。新一轮的扩增使用Nextera sequencing primers ,这样可以实现全长覆盖,但是没有UMI定量。
此外还有:液滴测序(Drop-seq),可以快速低成本的测多个细胞,并且多个细胞同时出现在一个液滴中也避免了上样量过低对测序造成的影响。
为了量化敏感度,我们通常会采用已知浓度的外源spike-in RNA
加入spike-in的浓度通常为mRNA总数的1%~5%,通常会使用ERCC的产品,这些涉及的RNA比哺乳动物的RNA短,有较短的poly(A)尾,缺乏5’ 帽。
分析的第一步就是进行质控(fastqc)并修剪(bwa)reads,对于人和鼠来说最终应保留长度35bp的reads。
在比对到参考基因组之前,应确保barcode\UMI等primer来源的序列都被除去。不过对于1对reads来说,其中一条read保留索引信息,另一条read比对到参考基因组上[见前文图:三种测序方法]。通常,可以将读段映射到基因组,然后通过将基因组的读段与基因模型注释相交来进行表达定量。建议仅保留单一比对的reads。
由于单细胞测序对基因的覆盖度低,不同转录本的鉴定(Cufflinks)成为一个难题。如果异构体的信息对于你的研究不是必须的,你可以把这些异构体合并到同一个基因位点。
除了依照参考文献,更重要的是考虑实验策略。如果我们的测序方法回富集3‘或5’端的序列,那么基因注释的质量就会对实验的里灵敏度产生很大的影响。因为基因模型在转录本的两端可信度较低,改善3‘或5’端注释可能会更好,尤其是对于那些非标准的模式生物。例如,Junker等人运用一种修正的CEL-seq进行长读段低深度测序以精确检测斑马鱼胚胎的3’poly(A)位点。
一旦细胞中的所有的reads或者转录本被计数,我们建议滤除reads含量低的细胞。这可能是样品准备过程造成的问题,比如细胞凋亡、应激、不当裂解、RNA降解或者扩增测序的效率较低。每个细胞中reads的总数或者UMIs代表的转录本的数量,最先预示着样本的质量。应该设置阈值以去除read counts分布左尾的细胞,防范由低质量细胞产生的伪像。
spike-in RNA 的表达可以用来鉴别和剔除测序效率不高的样本。由于所有样品的spike-in RNA数量应相同,因此鉴定低产量样品非常简单。
随着单细胞测序技术的突破,单细胞测序的时代已然到来。2018年单细胞基因组学被science评为年度突破技术,2020年单细胞多组学技术被Nature Methods 评为2020年年度技术。
其中10xGenomics作为单细胞测序方向上的佼佼者,持续致力于单细胞测序技术和新应用的开发,推动这单细胞测序时代的快速发展。目前应用其技术已经发表了2200+的文章,国内达230+的文章,其中大多数集中在人和动物方面,近年来,其在植物方向上的应用也在逐步扩大,涉及的物种包括拟南芥、水稻,以及玉米,本文就带大家一起看一下2021年1月4日由美国冷泉港实验室发表的有关玉米穗单细胞的文章。
作物生产力取决于分生组织的活动能力。分生组织发育成植物的组织,包括玉米穗的结构。全面了解植物的发育过程需要洞察细胞类型和发育区域的多样性以及它们所需的特定的基因网络。到目前为止,这些发育的过程主要是通过形态学和传统遗传学的知识来鉴定的,而传统遗传学又受限于遗传转录的冗余和多样性。
文章研究了12525个来自玉米穗发育的单个细胞的转录谱。由此产生的发育图谱提供了花序的单细胞RNA测序(scRNA-seq)图谱。并通过mRNA原位杂交和荧光活化细胞分类(FACS)RNA序列验证了我们的结果,并通过预测遗传冗余、整合转录网络和鉴定与作物产量性状相关的候选基因,进一步展示了这些数据如何促进遗传研究。
文章概览如下:
植物植株是由多能干细胞及其后代发育的分生组织发育而来的。分生组织能够分化为不同的细胞类型和具有特定功能的结构。在玉米穗发育过程中,部分分生组织形成花序结构。
突变体研究已经确定了关键的细胞类型或结构特异性调控因子,通过突变不同的发育结构域来调整花序结构的发育(Vollbrecht Schmidt,2009)。例如,KNOTTED1(KN1)编码的同源域转录因子对分生组织的建立和维持至关重要,并且在整个茎分生组织中表达(Jackson等人,1994)。通过对KN1的突变来研究其在分化过程中的作用。在进化或驯化过程中,许多关键的调控因子调控花序的结构的发育,这些调控因子的发现是因为基因突变体的存在而得以实现的,同时这些突变体阻碍了的细胞在某些特定方向上的发育。然而,这些理论都受到遗传转录冗余性和多样性的限制,因此需要一个特定细胞类型和结构分布的高分辨率表达图谱来进一步了解控制发育的基因网络。
单细胞RNA测序(scRNA-seq)提供了高分辨率分析基因表达和构建复杂器官或生物体发育图谱的机会。最近,10x Genomics scRNA-seq平台已被广泛用于鉴定拟南芥根中的细胞类型或结构域标记(Rich Griffinetal.,2020),但该技术在茎组织中的应用还受到限制。单细胞测序的数据可以结合CHIP-seq的对转录因子的鉴定或者survey对染色体状态的研究,以得到更完善的基因表达的信息。
文章利用10xGenomics scRNA-seq技术优化了一个方案,生成了玉米穗花序发育的高分辨率转录组图谱,进一步构建了转录调控网络,并确立与玉米穗产量性状相关的候选基因。
植物的单细胞图谱构建的两大挑战,其中之一就是原生质体的制备,文章采用5-10mm阶段的玉米穗,这个阶段决定了整个穗的发育,包括分生组织的起始,维持和终止以及器官发育的规格等。作者优化了细胞壁消化的方法,考虑到 不同细胞组成的差异,消化时间使用的45min。然而在制备原生质体的过程中,通过过滤去除破碎细胞中的小碎片和细胞器,然后通过流式细胞仪进入10xGenomoics系统制备文库,然后利用Illumina平台测序,分析了来自三个独立重复的12525个单细胞,检测了28899个基因的表达, 与普通转录组的基因表达检测情况相当。使用MetaNeighbor进行细胞聚类,共将其聚成12个类别。
构建植物单细胞图谱的另一个重要挑战就是细胞类别的注释和鉴定。为了鉴定每个聚类的差异性,作者编制了一份已知或预测的花序发育标记基因的列表,这些基因的表达模式已经在以往的玉米或拟南芥相关研究中进行了证实,其中74个基因在玉米中都有突变表型,本次检测中检测出了73个基因的表达,并且每个基因在12个类别中1个或者多个中表达量丰富。例如为了鉴定分生组织细胞类型,使用KN1基因,其在整个分生组织以及正在发育的茎和管道组织中表达,但并不在表皮和侧器官中表达。正如预期,KN1在12个类别中的10个中高表达,其他特征基因的表达情况也在下图中可以展示。玉米穗分生组织的纵切面和横切面也分别展示在下图的G和H中,其也显示了与scRNA的细胞聚类情况一致。
下图A绘制每个聚类中top2的marker基因的表达情况,其中颜色表示表达量的Z_score值,圆点大小表示细胞表达的百分数。进一步作者对关键的marker基因进行mRNA的原位杂交,颜色深浅表示基因的表达量情况。Marker基因的在组织中的表达情况与scRNAseq的结果相一致。
通过基因敲除的方式可以来研究某个基因在转录调控网络中的作用。从2个月大的茎尖(左下图,比例尺=100 mm)和6个月大的没有穗或流苏的植株可以看出,CRISPR-Cas9在ZmVOZ基因中敲除4个突变的玉米植株未能过渡到开花。
转录因子(TF)的直接调控靶点在相同的细胞类型中共同表达,使用scRNA-seq数据来计算KN1与其公布的直接调控的靶点的共表达,发现与所有玉米基因的对照相比,其显著高于预期。KN1直接调控的转录靶点在单细胞表达水平上与KN1显著共表达,支持原来的假设。KN1在除了表皮和侧器官中表达量均较高,而通过scRNA的数据发现ZmHDZIV8在3,6这两个聚类中大量表达,同时侧器官中的Marker基因ZmYAB4在聚类3中表达,因此明确了两个细胞类别。为了验证,接下来作者整合了两个额外的ChIP-seq数据集,用于ZmHOMEODOMAIN亮氨酸拉链IV6(ZmHDZIV6)(Javelle 等人,2011年)和ZmMADS16(ZmM16)(Bartlett等人,2015年)在特定花器官中表达。对于每一个TF在 Chip-seq的生物学重复中均有显著重叠,作者确定了ZMMADZIV6和ZmM16的907个高置信度峰,并对这两个基因的motif进行进一步的研究。
mHDZIV6候选调控靶点ZmNIP1A(G)和ZmPROPEP1(J)在scRNA序列中与ZmHDZIV6高度共表达。
玉米穗形态与产量性状相关。为了研究在单细胞转录组中鉴定的细胞聚类和标记基因是否与玉米产量的候选调控因子一致。通过GWAS的方法,比较分生组织、侧器官和微管组织的scRNA-seq的Marker基因与281个玉米穗部与产量相关的形态性状的GWAS的结果结合。利用scRNA-seq的Marker基因2kb内的单核苷酸多态性,作者发现meta cluster 3标记基因ZmYABBY9(ZmYAB9)在CW(穗轴重量上)显著。图A中展示了玉米的相关产量的性状。同时还发现两个显著的单核苷酸多态性(10%FDR)与穗直径(ED)相关。
总之,scRNA-seq为玉米穗发育的研究做出了重要贡献。该图谱可为发育遗传学研究和育种提供基础,文章开发的原生质体的制备方法和分析的方法可应用于其他复杂地上部系统的研究。随着越来越多的植物scRNA-seq数据集的产生,一个跨物种(例如,玉米和拟南芥之间)或跨组织(例如,茎和根)在单细胞分辨率下的比较分析将告诉我们在进化过程中如何选择基因特征,以形成对增殖增产和农业生产至关重要的各种形态。
从一篇文献学起:
Spatially and functionally distinct subclasses of breast cancer-associated fibroblasts revealed by single cell RNA sequencing
参考:
单细胞测序的两个方向:细胞足够多或基因足够多的。这篇文章细胞数不到1000,但基因数目较为可观。
Cancer-associated fibroblasts (CAFs) / tumor-supportive CAF
(肿瘤相关成纤维细胞)
extracellular matrix (ECM)
epithelial-to-mesenchymal transition (EMT)(转化).
MMTV-PyMT mouse model(自发肿瘤小鼠模型)
single cell differentially expressed genes (SCDE)
reproducibility-optimized test statistic (ROTS)
differentially expressed genes/significantly differentially expressed (SDE)
log2(RPKM + 1)
可以看到SMART-seq2和10x genomics是互相独立的技术。本文使用成熟的单细胞转录组( Smart-seq2 )手段探索了癌相关的成纤维细胞 CAFs的功能和空间异质性。
Smart-seq2是目前最常用的单细胞转录组技术,最低能够以单个细胞或10pgRNA为模板,通过设计Oligo(dT) VN Primer作为逆转录引物,利用逆转录酶的模板转换(Template-switching)活性,在cDNA的3’端添加一段接头序列,通过该接头序列进行后续PCR扩增,可以获得全长cDNA扩增产物,进行基因表达检测、差异分析、可变剪接、融合基因等遗传调控信息分析。
tips1用STAR软件进行比对,并用外部已经定量过的RNA(spike-in counts)去校正自己的基因表达量(endogenous gene counts)。
tips2共通过2个批次做了768个细胞。
tips3
图g是reads的数量,在极端值(蓝色)部分可以过滤掉。
图h为uniquely mapping reads%,是通过fastqc质控得到的,蓝色部分为质控比对不合格的。
图i是exon mapping reads%,是外显子mapping的百分比,过滤掉30%以下的(reads集中在线粒体等区域)
图j是RPKM,过滤掉表达量低的
图k是correlation,删除掉相关性较低的(通常不这么做)
评估变异系数和混杂因素
图a是变异系数和表达量的关系
图bc是用PCA和tSNE评估混杂因素
主要分析是tSNE,然后挑选first 150 SDE genes绘制热图 - 并且进行 gene ontology (GO) 注释来确定不同组的细胞功能:
上图为716个CAF的tSNE图,下边的每一个基因都是根据这个tSNE图来画的:
接下来GO分析注释细胞亚群的功能。(不放图了)
结合TGCA
关键词:单细胞测序技术的意义