首页 > 外泌体 >正文

外泌体RNASeq(外泌体RNA浓度)

2023-01-17 03:53:45 作者:max
评论:0

本文目录一览:

外泌体多组学02-体液来源外泌体的组织和细胞类型溯源

外泌体(30~150nm大小)是活细胞分泌的最小类型的细胞外囊泡(为30~1000nm),通过所有体液的循环系统,如血液、尿液和眼泪,作为细胞间的信使。体液外泌体的来源混杂,可以是任何组织和细胞分泌的外泌体然后经体液循环进入。

其中,尿外泌体可以反映病理生理学,并为肾相关功能障碍提供生物学理解,是泌尿系统癌症很有前途的生物标志物来源。

尿外泌体和泌尿/非泌尿器官或细胞之间的遗传网络仍不清楚,本文旨在对尿外泌体bulk RNA-Seq数据进行组织和细胞类型溯源,为外泌体应用于疾病诊断和治疗提供重要理论依据。

本次介绍的文献信息如下:

在我们的体液中,纳米级细胞外囊泡的遗传起源尚不清楚。在这里,我们通过RNA测序对尿外泌体进行了跟踪分析,发现尿外泌体主要表达膀胱的组织特异性基因,并与内皮细胞、基底细胞、单核细胞和树突状细胞有密切的细胞遗传关系。对癌症的差异表达基因进行追踪和相应的富集分析显示,尿外泌体密切参与免疫活动,这表明它们可以作为癌症基因组诊断和精确医学中非侵入性液体活检的可靠生物标志物。

数据情况:

ssGSEA:观察到肾和胃的TSG在膀胱癌和对照样本中有差异表达(图1B);相比之下,膀胱、肺、脑和肝脏的TSG在肾癌样本及其对照组中存在差异表达Fig. 1C。

细胞类型signature matrix:

来自于 HCL,human cell landscape (HCL, )的单细胞数据和markers,主要包括肾脏的16种细胞类型与膀胱的16种细胞类型

CIBERSORT:构建了一个细胞类型矩阵,并研究了外泌体的细胞水平来源(Fig. 1D):

bulk RNA-seq分析通常通过识别DEGs来比较不同条件下的转录本丰度。当整个组织的RNA-seq(bulk RNA-seq)完成时,确定基因表达的变化 在多大程度上是由于细胞类型比例的变化 通常是一个挑战。而这一挑战可以通过单细胞RNA-seq(scRNA-seq)方法来解决。bulk RNA-seq通过去卷积分析,可以估计细胞类型比例的变化。

下面这张图展示了 细胞类型的特异性和细胞类型的比例如何导致基因差异表达(DEG) :

在上图中,形状表示细胞类型,每个形状的数量表示相对的细胞类型比例。颜色代差异分组。点代表每个细胞内基因表达水平。

使用了一个工具scMappR:分配贡献DEG的细胞类型,并确定了cwFoldChange最高的细胞类型

肾癌标志物中的S100A10和CCAR1,膀胱癌标志物中的CD248和MT-ATP已被证明在尿癌中具有促进肿瘤的功能

意外发现:DDX17的表达水平呈明显的变化趋势:肌肉浸润性膀胱癌 非肌肉浸润性膀胱癌 DDX17表达,这可能是由于人类RNA解旋酶DDX17通过调节几种DNA和染色质结合因子的选择性剪接来促进肿瘤细胞的侵袭性

各组的基因组合可以提高肿瘤样本与相关良性疾病样本的准确性,对这两种尿路癌的早期诊断具有指导意义

主要结果:

研究意义:

文献中使用的软件 scMappR 利用单细胞数据构建signature matrix来对bulk RNA-Seq进行去卷积分析,我们下期介绍~~~

RNA-seq原理

测序技术发展:

1977Sanger测序--1996焦磷酸测序--2003cmPCR--2003ZMW---2012纳米孔测序

RNA-seq的一些技术限制,测序误差主要由生物学误差(生物学重复,比如取30只小鼠采样)和技术性误差(技术性重复,比如对1只小鼠采样3次)造成,如果想要得到的数据为无偏的,那么生物学重复最重要,因为生物个体代表着样本,而技术手段只会造成不可控干扰。总的来说,只做技术性重复的实验结果偏差最大,技术性重复+生物学重复的实验结果偏差也可能较大,除非生物学重复远大于技术性重复(因为当生物学重复次数不足时,技术性重复能扩大样本单一的影响),无论如何,多做生物学重复,这有助于你的结论被其他人复现。

原理详解:

A 为了保证细胞在标记的过程中是单独分开的,10X开发了微流体设备(microfuidic device)进行预处理,设备有三个上样孔,分别加入你的1.样本细胞悬液(Sample) 2.凝胶小球(Beads) 3.分离液(Oil),下图为具体设备的示意图。

当我们把样本细胞悬液加入设备时,每一个细胞会与凝胶小球单独结合,然后被分离液包裹,形成一个油包水的密闭小液滴(droplet)。进一步地,细胞和凝胶小球相遇不久后会裂解,释放出里面的各种物质,RNA(mRNA、tRNA、rRNA),蛋白质,脂质,DNA等。实际上Beads上联接了不同的接头,其中有一个接头包含ploy(dT)序列,在细胞裂解后释放的核酸中,只有mRNA带有polyA tail,于是Beads的poly(dT)接头就可以从众多的裂解产物里捕获到mRNA(实际上drop-seq采用3'端测序,就是为了检测polyA tail)。

Master Mix中带有反转录试剂,当mRNA被捕获后,就可以从它的3‘端开始作为模板,进行反转录出cDNA的第一条链,这第一条链就沿着poly(dT)序列延申,长在了beads上,形成了图一7中的STAMPs,接着我们把反转录出来的cDNA序列洗脱,以cDNA的第一条链为模板,进行PCR,合成cDNA的第二条链,然后就是我们熟悉的cDNA扩增以及illumina测序。

如何确定测序序列来自哪个细胞?single cell的RNA-seq和bulk的RNA-seq的最大区别是什么?是barcode,或者说是cell barcode(实际上DNA自带barcode,cell barcode是人为控制的)。每一种single cell的beads上都有着相同的cell barcode(beads与beads间的cell barcode是不同的),假设每个beads只捕获一个cell,那么则每个cell都被cell barcode 单独标记了。

如何保证每个beads只捕获一个cell?第一是控制cell和beads的流速,第二是beads的数目远远超过cell的数目,即绝大多数的beads都是空的,只有少数的才捕获到了cell。但是还是有个别的droplet里面会两个或者更多的细胞,这就需要进行质控(QualityControl)。

接下来可以参照10X Genomics的说明书详解single cell RNA-seq的barcode。

实际上beads上一开始只接了Read1、Barcode、Poly(dT)。

名词解释:

Poly(dT): 用来和mRNA的polyA结合,捕获mRNA

UMI: 用来标记不同的PCR产物(用于count计数)。为了减少由于复制引起的误差(重复抽样导致重复计数),人们在一些单细胞测序的步骤中增加了UMI(unique molecular identifiers),UMIs 是由 4-10 个随机核苷酸组成的序列,在 mRNA 反转录后,进入到文库中,每一个 mRNA,随机连上一个 UMI,因此可以计数不同的 UMI,最终计数 mRNA 的数量。

10X Barcode: 用来标记不同的single cell

Sample Index: 用来标记不同的sample

P5和P7: 用来进行illumina的桥式PCR测序

Truseq Read 1、2: 用来进行连接beads,cDNA的PCR扩增和加P7接头

在这些序列中,P5、P7、Truseq Read 1、2 的序列是已知的。

其他的序列是怎么一步一步添加上去的?

具体步骤:

利用Poly(dT)来捕获mRNA,在mRNA的5'端插入TSO(Template Switch Oligo模板切换低聚糖)引物,然后从mRNA的polyA开始反转录,直至mRNA的DNA序列被转录完成,然后在beads序列的3'端插入CCC,再对mRNA的TSO进行反转录,至此完成了cDNA的第一条链(序列顺序和mRNA逆序)。上述步骤很重要,因为中间cDNA的序列我们是不知道的(仪器测序长度有限),如果不加上这个接头,就没有办法设计引物来合成cDNA的第二条链。

将mRNA溶解,对cDNA的第一条链加入UMI引物,以cDNA的第一条链为模板合成cDNA的第二条链。最后使用PCR(聚合酶链式反应)对cDNA(拷贝DNA)进行扩增(为了富集)。

PCR原理

因为II代测序(NGS)的illumina测序不能测很长的seq,约为200-700bp,所以不能测得mRNA全长,因此需要进一步把合成的cDNA利用酶打断到illumina能测的长度(长度有些随机,比如300bp的cDNA能通过头尾150bp完整测序,但700bp的cDNA只能通过头尾150bp测序+参考基因组推断出来)。然后在cDNA的3'端插入Truseq Read2引物(和Truseq Read1引物匹配为头尾,中间序列就是reads)、P5、P7。

最后的测序数据(reads)从Truseq Read1后的10X Barcode开始,一直到Truseq Read2为止。

PCR扩增是对cDNA单链进行复制,后面的桥式PCR是对完整的样本进行复制(增加数据深度),总的来说各个cDNA呈均匀分布,然后进行抽样。

RNA-seq duplications有PCR duplication(最主要)、cluster duplication、optical duplication。

实际上仪器会对核苷酸进行染色,然后判断颜色确定ATCG碱基,因此有很多原因会导致机器误判,和后续QC有关。

1.某些核苷酸对颜色附着不明显

2.大片区域颜色相同(相同类型核苷酸),而其中仅有几个颜色不同的点(不同类型的核苷酸)

外泌体多组学14-血浆外泌体不同建库试剂盒和比对方法和稳定性测试

最近在血液中发现的细胞外rna,包括细胞外囊泡(EVs)中的rna,再加上低起始量rna测序的进展,使科学家能够研究它们在人类疾病中的作用。迄今为止,大多数研究都集中在小rna上,而且缺乏优化长rna测量的方法。我们使用血浆RNA评估了六种长RNA测序方法在两个不同位点的性能,并报告了它们在 基因组/转录组的reads(%) 、 检测到的基因数量 、 长RNA转录本多样性 和 可重复性方面 的差异。使用最佳的方法,我们进一步比较了EV和不含EV的RNA血浆中长RNA的谱。

为了系统地比较文库构建试剂盒/条件,我们使用了来自两个独立血浆样本池的总RNA。我们将两个库中的总RNA平均分为6个不同的RNA测序试剂盒/条件,并在两个独立的位点重复构建文库。在样品制备后,我们使用Illumina的HiSeq2500平台进行了长RNA测序,以评估基因组和转录组定位百分比。

在比对之前,从每个样本fq数据中抽取50 million read pairs数据作为后续分析。

在比对到转录组时,我们查看了四种RNA biotypes定量结果:protein-coding, lncRNAs, ncRNAs, and pseudogenes

文章小结:评估指标基因组/转录组的reads(%)、检测到的基因数量、长RNA转录本多样性和可重复性方面的差异

RNA-seq 分析之我见(一)

先说下生物体内RNA的大致组成:

编码RNA:根据中心法则我们知道,DNA转录为mRNA,mRNA通过tRNA翻译为蛋白质,蛋白质行使生命功能,例如呼吸,运动,消化等等。人类只有2万左右个蛋白质编码基因,这些编码基因只占人类全基因组的2%左右。mRNA占细胞RNA总量的2%~5%, tRNA占细胞RNA总量的15%左右。

非编码RNA:有些DNA转录为RNA后,不继续编码蛋白质,这种RNA叫非编码RNA(ncRNA),包括microRNA,lncRNA,cirRNA,之前人们认为这些RNA是“垃圾”,但是近年来的研究证明,这些RNA对编码基因发挥着重要的调控作用,是当下研究的热点。

rRNA:核糖体RNA,占RNA总量的80%左右。

广义上说占总RNA95%左右的rRNA和tRNA也属于非编码RNA,但是一般研究中,使用的是它的狭义概念,即除去rRNA和tRNA之外的非编码RNA。

正常情况下,非编码RNA调控基因的转录翻译,这些都是有序进行的。

但是当处于异常条件下,或者由于自身衰老变异或者受到外部的刺激,比如细菌病毒的感染,射线照射等,这之后往往导致非编码RNA表达的变化,进而影响蛋白表达的变化,从而引起一系列的病理反应,最终导致疾病。

那么反过来,如果我们想了解某一疾病具体的发病机理,我们是不是可以提取某一疾病状态下组织或者细胞的总RNA,去分析它们和正常组表达的异同,我们有理由相信,这些差异表达的RNA分子,很可能与发病机制有关,研究这些差异分子,可以给我们对这一疾病的发病机制的研究提供重要线索,从而研发出更有效的诊断和治疗方法。

通过上面的分析,接下来面临的问题就是,我怎么分析某一疾病状态下组织或者细胞所有RNA的表达情况,一个一个分析,肯定不现实,而且可能还有很多未被发现但是很重要的分子。怎么办?只有一个办法,转录组测序,即RNA-Seq, 某一条件下所有转录出来的RNA碱基序列,我都给你测出来是什么。

那么这涉及6个步骤

1、提取组织或细胞总RNA后,除去占大部分的rRNA和tRNA,剩下编码RNA 和非编码RNA

2、对这些RNA进行测序,理想情况下,是直接检测,但是不现实,只有通过碱基互补配对的合成过程,才能知道原来样品中模板的序列,但是这个合成的长度是有限制的,所以只能先把这些RNA切割成小片段,再检测这些小片段的序列。具体原理见陈巍学基因视频。这个过程得到两种数据,一种是许许多多的碱基序列,一个是这些序列的表达频率。也就是一个是RNA是什么碱基序列,一个是RNA表达了多少量

3、由于上一步把RNA切割了,好像是一块拼图打散了,所以,这一步需要将这一个个的小块再重新拼成一个完整的图片。也就是比对,将检测到的RNA碱基序列,比对到参考基因组上,看某段RNA位于参考基因组的哪段序列上。这一步就好像一个拼好的拼图,上面有高高低低的小块,有些分子表达量高,它对应那个小块就高,反之就低。通过这一步,实验组和对照组都得到一个高高低低的拼图。

4、把实验组和对照组的拼图比较一下,看哪些RNA小块表达量是不一样的。或者你高我低,或者我高你低,从而得到这些差异表达基因名字的列表。因此这一步的结果都是一些基因名字或者转录本编号了。

5、将这些差异表达的分子,进行下游功能分析,比方看看它们都跟什么信号通路相关啊,可能跟什么功能有联系啊等等。这一步得到的就是很多结果图了。

6、下一步就是将筛选到的差异基因,结合你感兴趣的生物学功能或者过程,挑选出几个,进行再进一步的机制研究。这步就是湿实验了,也是决定文章层次的核心,这是需要人力和财力,再加上运气的事情,不过就算不做这一步,前5步也能发篇小文章灌灌水了。由于这一步涉及基础医学的机制研究方法,不在这篇文章的讨论范围内。

样品送测序仪器后,也就是上述第2步后得到会产生大量的数据,可能是多少个G的级别,有几万,甚至几十万的碱基序列,首先你要比对到参考基因组吧,然后你要看看实验组和对照组哪些基因表达有差异吧,其实这不是很复杂的事情,就是数据量太大了,如果就几十个,你完全可以用EXCEL查找,再标记,但是几十万个基因,谁能做到啊。所以现在需要一种工具,可以对数据进行批量编辑和操作。

感谢计算机发达的技术,前人早就帮我们想出来。Linux操作系统就可以实现对大量数据的批量编辑

,R语言可以实现大量数据的统计和做图。

好了,我们的下一步就是学习Linux操作系统和R语言了。

但是这两个部分包含了很多很多的知识,我们完全零基础,要是从头开始学,效率有点低,毕竟不是专业计算机出身,不需要一下子把所有东西都学会,先把目前需要掌握的学到,将来再举一反三,慢慢学其它的。

所以现在就开始模拟实战,从一个测序数据的样本开始,看看是怎么一步步得到文章中的结果的。

未完待续...

这两天宝宝得了幼儿急疹,耽误了几天,现在真的是上有老,下有小了,生活的压力会逼得你迅速成长起来。到这个时候才能深刻体会到时间是非常宝贵的,尽量少干不必要的事情,抓紧提升吧~

调控相关——lncRNA(学习总结)

lncRNA现在这么红并非没有道理,它凭着自身强大而独特的调节功能而撑起了细胞生命领域里的半边天,而近年来与其相关的下游机制研究也是层出不穷。 lncRNA下游调节机制虽说是错综复杂,但通常离不了基因、转录、转录后、翻译、翻译后这五个层次。

1. 就基因水平而言,lncRNA与DNA甲基化间有着千丝万缕的关系。 而这种模型常见于lncRNA和甲基化转移酶(DNMT1、3等)结合,并将该酶定位至基因的启动子(CpG岛)以及甲基化,进而抑制基因转录。

(ps.这一部分跟我之前看的m6A的书可以联系上)

此外,位于核内的lncRNA还可直接结合DNA序列,抑制转录过程;又或者结合转录因子、RNA聚合酶复合物以及通过组蛋白修饰来影响转录过程。 (组蛋白修饰可以作为单独一门学科来研究)

而且lncRNA不仅能在核内大展拳脚,因着自由穿梭核内外的这份特性,它在胞浆内也是锋芒毕露。且不说大家耳熟能详的ceRNA,lncRNA还可通过mRNA的可变剪切、定位以及稳定性,来影响细胞内生理功能的行使。

2.另外, lncRNA也会促进pri-miRNA剪切 ,甚至有时其自身就亲自客串为miRNA的前体 ,在被剪切为miRNA后,来抑制靶基因mRNA的表达水平。常言道,技多不压身,一路开挂的lncRNA也顺道插手了蛋白翻译过程,要么结合mRNA 5’UTR,促进翻译;要么结合特定蛋白,靶向mRNA,抑制翻译;要么仰仗着sORF翻译多肽来自产自销。

lncRNA如此全能,也让蛋白质心痒不已。两者一拍即合,蛋白质的磷酸化修饰、定位等都在lncRNA的影响下有条不紊的进行着。

尽管以上种种就是lncRNA发挥功能的十八般武艺,但仍要谨记贪多嚼不烂,小伙伴们只需依据lncRNA的亚细胞定位(与调节功能有关)择其一认真练之,就必然会有所收获。

1.定位核内,先考虑附近100万bp内的基因表达是否有影响,有则为cis-顺式作用;反之,为trans-反式调控基因,就可依据RNA pulldown筛选与lncRNA结合的蛋白;

2.定位胞浆内,若结合RNA,首选ceRNA;若结合蛋白,则可考虑mRNA可变剪切、稳定性,调节基因翻译以及蛋白修饰等机制。

3.而就lncRNA分子机制研究的总体而言,始终是有两个主要策略贯彻其中。

1.  以非编码RNA为对象入手,这是非编码RNA研究的常规套路。 从不同刺激或处理的转录组或表达组入手,先通过差异倍数和显著性,及非编码RNA的基因组定位信息等筛选功能性候选RNA分子;再通过正反功能以及细胞-动物实验进行二次验证。

该策略稳定可靠,风险性较小,而难点在于后期分子机制的研究上,若只涉及明星通路及相关蛋白,则是探讨了lncRNA的间接分子机制;但要想将文章拔高档次,还需以RNA-pulldown,RIP,ChIRP等实验技术确定lncRNA相互作用分子以及作用结合位点,来挖掘lncRNA的直接分子机制。

2.  从某一个分子作用模式入手,恰恰反其道而行之。 先靶向一个重要的蛋白分子,比如信号转导分子、酶类或者转录因子等;或者一个细胞亚结构,如线粒体、外泌体等,通过RIP-seq或者RNA-seq检测其结合的或者包含的RNA,按照富集的倍数和显著性筛选候选RNA分子,后面通过siRNA或者高表达的方法筛选功能RNA。

该策略从课题设计开始就有着明确指向的功能分子机制,在后续的分子机制研究中比较方便展开;但难点是前期如何做好RIP-seq和细胞亚结构的有效分离,这是后续实验可靠性和可行性的重要保障。

两种策略在实验技术上有部分重叠,但也有各自独特的实验技术需求或数据分析策略。 不同策略适应于不同的课题和实验室背景,在选择的时候可以根据课题特点和实验室技术体系进行取舍。当然,两种策略也可以同时应用,相得益彰,相互作证,起到更好验证效果。

插入我十分珍藏的一张RNA之间的互作关系来收尾

再附赠多组学RNA研究的文章一篇:

这篇帖子以解螺旋一篇文章作为框架,为表尊重,附上链接   

app
公众号
投稿 评论 关灯 顶部