(说明一下,这篇比较偏技术一些,看起来有点儿费脑子。其实内容就是介绍三代DNA测序方法的不同原理。文章是五年前写的,最后加了一段过去5年的更新) 虽然是说基因测序的,先从半导体界的摩尔定律说起吧。著名的摩尔定律,讲的是每过18到24个月,在价格不变的情况下,芯片的性能提高一倍。可是DNA测序技术的发展,竟然打破了这个定律。 DNA 的双螺旋结构结构是1953年发现的。 Watson and Crick获得Nobel奖的那篇论文里,最重要的一句话是:“It has not escaped our notice that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material." 就是说,他俩不但发现了DNA的结构, 还揭示DNA复制的机制。 DNA总共有四种碱基, A,T,C,G。DNA双螺旋结构的核心,就是固定的碱基配对。 A 配T,C配G。所以只要有双螺旋结构中的一条链, 就能复制出另一条链来。DNA序列是有方向的,好比一个个叠加的箭头, >>>>>>>>>>>>>>, 箭头尾端用5’来标记,箭头前端用3’ 来标记,复制的时候总是从5’ 端往3’ 端进行。 DNA测序方法,其实才诞生了46年,期间有三次重要的变革。 第一代测序方法 第一代测序法是 Frederick Sanger 在1977年发明的。原理是利用了DNA复制的机理。不过测一段特定DNA序列的顺序,需要在四个试管里分开进行DNA复制的化学反应。 比如说吧,在第一个试管里,复制DNA链的原料主要是正常的A, T, C, G 碱基(dATP, dTTP, dCTP, dGTP), 但是在其中掺入了极少量经过特殊处理,会中断复制过程的A碱基 (ddATP)。那么在这个管子里,复制到一个应该是A的位点时,会有两种可能:如果是正常的dATP被合成到DNA链里去了,那么复制就会向下一个碱基继续进行; 如果是ddATP进去了,复制会中断。用dATP 还是用ddATP来合成DNA链,这是一个概率事件。 有很大概率会用dATP, 那么DNA复制可以继续进行下去。 但是偶尔在该用dATP的时候, DNA复制酶错用了ddATP,那么这条链就断在这里,不能继续复制了。复制的结果是很多很多的DNA单链分子,这些DNA单链分子的最后一个碱基都是A。另外一点要说明的是,因为一开始放了足够多的反应物,所有可能的以A结尾的DNA单链分子都会被制造出来。
(说明一下,这篇比较偏技术一些,看起来有点儿费脑子。其实内容就是介绍三代DNA测序方法的不同原理。文章是五年前写的,我先搬过来,然后再看看需不需要更新。) 虽然是说基因测序的,先从半导体界的摩尔定律说起吧。著名的摩尔定律,讲的是每过18到24个月,在价格不变的情况下,芯片的性能提高一倍。可是DNA测序技术的发展,竟然打破了这个定律。 DNA 的双螺旋结构结构是1953年发现的。 Watson and Crick获得Nobel奖的那篇论文里,最重要的一句话是:“It has not escaped our notice that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material." 就是说,他俩不但发现了DNA的结构, 还揭示DNA复制的机制。 DNA总共有四种碱基, A,T,C,G。DNA双螺旋结构的核心,就是固定的碱基配对。 A 配T,C配G。所以只要有双螺旋结构中的一条链, 就能复制出另一条链来。DNA序列是有方向的,好比一个个叠加的箭头, >>>>>>>>>>>>>>, 箭头尾端用5’来标记,箭头前端用3’ 来标记,复制的时候总是从5’ 端往3’ 端进行。 DNA测序方法,其实才诞生了46年,期间有三次重要的变革。 第一代测序方法 第一代测序法是 Frederick Sanger 在1977年发明的。原理是利用了DNA复制的机理。不过测一次序,需要在四个试管里分开进行DNA复制的化学反应。 比如说吧,在第一个管子里,复制DNA链的原料主要是正常的A, T, C, G 碱基(dATP, dTTP, dCTP, dGTP), 但是在其中掺入了极少量经过特殊处理,会中断复制过程的A碱基 (ddATP)。那么在这个管子里,复制到一个应该是A的位点时,会有两种可能:如果是正常的dATP被合成到DNA链里去了,那么复制就会向下一个碱基继续进行; 如果是ddATP进去了,复制会中断。用dATP 还是用ddATP来合成DNA链,这是一个概率事件。 有很大概率会用dATP, 那么DNA复制可以继续进行下去。 但是偶尔在该用dATP的时候, DNA复制酶错用了ddATP,那么这条链就断在这里,不能继续复制了。复制的结果是一系列长度不等的DNA序列,这些DNA序列的最后一个碱基都是A。 比如这个序列:TCGACCTAGGATCG,在第一个试管里面复制的产物是三种不同长度的DNA序列,都是以碱基A结束的(TCGA,TCGACCTA,TCGACCTAGGA)。 另外为了方便成像,还用放射性物质来标记会让复制中断的ddATP,这里用 ddA*TP 来表示有放射性标记的碱基。所以在上面的例子里,得到的是三种不同长度的带放射性的DNA序列,都是以带放射性的碱基A结束的(TCGA*,TCGACCTA*,TCGACCTAGGA*)。 在第二个试管里,除了正常的A,T, C, G 碱基外,还掺入少量会让复制中断并带有放射性的ddT*TP, 第三个试管里掺入ddC*TP, 第四个试管里掺入ddG*TP。 这样四个试管里复制的结果,就分别是长度不等,结束在A*, T*, C*, G* 的DNA序列。 DNA单链在胶里跑电泳的速度和单链的长度成反比,越短的单链跑得越快,越长的单链跑得越慢。 这里把四个试管的产物分开跑电泳 (比如下图里,把第一个试管的产物放在最左边一格跑, 剩下三个试管的产物分别在第二格,第三格,第四格跑),因为每个试管里包含的片段长度不同,就会形成一条条带子, 每一个带子来自一个特定长度的DNA片段。比如中间彩色标识的一段四个碱基,从下往上读, 序列就是CGAT
Alithea 是做3‘end RNAseq的公司。他们写的这篇blog, 结论是华大基因的技术和Illumina的技术在测序质量方面是同一水平,华大基因的技术在降低成本方面更有优势,但二代测序市场仍是illumina 占了大头。 “Together, these cumulative studies indicate that the DNB technology in MGI sequencing platforms produces RNA-seq data of equivalent quality to that produced by Illumina platforms.” “Alongside reliable and accurate sequencing data, current MGI genetic sequencers provide a lower cost per sample for researchers as they are more scalable than the most recent Illumina models. Despite this, Illumina platforms remain more common than the MGI platform (Jeon et al., 2021).”
回复 81楼cs5560的帖子 CGI 那段我确实不了解, 谢谢指正。华大基因确实在美国是被ban了, 目前他们请了lobbist 游说。 https://www.politico.com/newsletters/politico-influence/2023/11/29/potential-crackdown-on-foreign-genomics-firms-sparks-a-lobbying-fight-00129184 “— The House bill names several Chinese companies that would be subject to the ban, including Shenzhen-based BGI Group. Subsidiaries of BGI have already been placed on numerous U.S. blacklists over allegations that their genetic analysis has been used in surveillance and repression of minorities by the Chinese government. — Over the summer, BGI Group retained a team of lobbyists at Steptoe & Johnson over the summer that includes former Puerto Rican Gov. Luis Fortuño and former trade official Jeffrey Weiss to lobby on the genomics language in the NDAA, paying the firm a whopping $270,000 for the work between July and September. — An affiliated genomics company that would be subject to the ban, Complete Genomics, also turned to K Street for help in recent weeks. The company, which is owned by former BGI Group subsidiary MGI, brought on The Vogel Group in September to lobby on “health care, industry competition, and market access” issues, according to a registration filing. The firm’s third quarter report shows it was paid $150,000 for less than a month of work to lobby on the genomics provision." https://www.reuters.com/markets/us/us-adds-chinese-genetics-company-units-trade-blacklist-2023-03-02/#:~:text=The%20Biden%20administration%20on%20Thursday,ratchet%20up%20tensions%20with%20Beijing. "The Biden administration on Thursday added 37 companies to a trade blacklist, including a unit of Chinese genetics company BGI Genomics Co Ltd. (300676.SZ) and Chinese cloud computing firm Inspur, in a move that promises to further ratchet up tensions with Beijing."
虽然是说基因测序的,先从半导体界的摩尔定律说起吧。著名的摩尔定律,讲的是每过18到24个月,在价格不变的情况下,芯片的性能提高一倍。可是DNA测序技术的发展,竟然打破了这个定律。
DNA 的双螺旋结构结构是1953年发现的。 Watson and Crick获得Nobel奖的那篇论文里,最重要的一句话是:“It has not escaped our notice that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material." 就是说,他俩不但发现了DNA的结构, 还揭示DNA复制的机制。
DNA总共有四种碱基, A,T,C,G。DNA双螺旋结构的核心,就是固定的碱基配对。 A 配T,C配G。所以只要有双螺旋结构中的一条链, 就能复制出另一条链来。DNA序列是有方向的,好比一个个叠加的箭头, >>>>>>>>>>>>>>, 箭头尾端用5’来标记,箭头前端用3’ 来标记,复制的时候总是从5’ 端往3’ 端进行。
DNA测序方法,其实才诞生了46年,期间有三次重要的变革。
第一代测序方法
第一代测序法是 Frederick Sanger 在1977年发明的。原理是利用了DNA复制的机理。不过测一段特定DNA序列的顺序,需要在四个试管里分开进行DNA复制的化学反应。
比如说吧,在第一个试管里,复制DNA链的原料主要是正常的A, T, C, G 碱基(dATP, dTTP, dCTP, dGTP), 但是在其中掺入了极少量经过特殊处理,会中断复制过程的A碱基 (ddATP)。那么在这个管子里,复制到一个应该是A的位点时,会有两种可能:如果是正常的dATP被合成到DNA链里去了,那么复制就会向下一个碱基继续进行; 如果是ddATP进去了,复制会中断。用dATP 还是用ddATP来合成DNA链,这是一个概率事件。 有很大概率会用dATP, 那么DNA复制可以继续进行下去。 但是偶尔在该用dATP的时候, DNA复制酶错用了ddATP,那么这条链就断在这里,不能继续复制了。复制的结果是很多很多的DNA单链分子,这些DNA单链分子的最后一个碱基都是A。另外一点要说明的是,因为一开始放了足够多的反应物,所有可能的以A结尾的DNA单链分子都会被制造出来。
比如这个起始序列:TCGACCTAGGATCG,在第一个试管里面复制的产物是三群不同长度的DNA单链分子,第一群是很多个DNA单链分子 TCGA的集合, 第二群是很多DNA单链分子TCGACCTA的集合, 第三群是很多DNA单链分子TCGACCTAGGA的集合。 所有这三群DNA单链分子的共同点是,它们都是以碱基A结束的。
另外为了方便成像,还用放射性物质来标记会让复制中断的ddATP,这里用 ddA*TP 来表示有放射性标记的碱基。所以在上面的例子里,得到的是三群不同长度的带放射性的DNA单链分子,都是以带放射性的碱基A结束的(TCGA*,TCGACCTA*,TCGACCTAGGA*)。
DNA单链在胶里跑电泳的速度和单链的长度成反比,越短的单链跑得越快,越长的单链跑得越慢。比如上面的例子,把第一个试管里三群不同长度的DNA分子放在一起跑电泳,就形成了三条带。TCGA*最短跑得最快,好多好多TCGA* DNA 单链分子跑在一起,形成最下面的一条带。TCGACCTA* 跑在中间,好多好多TCGACCTA* DNA单链分子跑在一起,形成中间一条带。TCGACCTAGGA*跑得最慢,所以跑的距离最短,形成最上面一条带。
讲完第一个试管,咱们现在讲剩下三个试管。在第二个试管里,除了正常的A,T, C, G 碱基外,还掺入少量会让复制中断并带有放射性的ddT*TP, 第三个试管里掺入ddC*TP, 第四个试管里掺入ddG*TP。 这样四个试管里复制的结果,就分别是长度不等,结束在A*, T*, C*, G* 的DNA序列。
所有DNA复制反应结束以后,可以把四个试管的产物并排跑电泳 (比如下图里,把第一个试管的产物放在最左边一格跑, 剩下三个试管的产物分别在第二格,第三格,第四格跑),因为每个试管里包含的片段长度不同,就会形成一条条带子, 每一个带子来自一个特定长度的DNA片段。然后就可以根据带子的位置来读起始DNA的顺序了。比如下图里中间彩色标识的一段四个碱基,从下往上读, 序列就是CGAT
这就是第一代Sanger 测序法的基本原理。 把这种测序法发扬光大并成功商业化的,是一家叫做Applied Biosystems的公司。他们做出的改进是不用放射性物质来标记让复制中断的碱基,而改用荧光标记。使用荧光标记的好处,是可以同时用四种波段不同的荧光来分别标记四种让复制中断的碱基。这样DNA复制的过程就不用分开进行四次,而是一次在同一个试管里完成了。复制反应结束以后,还需要跑电泳,但是改为在毛细管里跑,也不用胶片成像了,直接用荧光探测仪检测和记录。
Applied Biosystems 1983年成立,接下来在DNA测序领域称雄三十年,2000年左右轰动一时的人类基因组测序,就是用他们公司的机器进行的。
第二代测序方法
从八十年代中到2007年, DNA测序的成本一直在稳定地下降,一方面是由于各种技术细节上的改进,另一方面要归功于测序过程的工业化规模化。 就像半导体的摩尔定律因为物理限制不可能无限进行一样, Sanger 测序法到2004年左右也碰到了继续提高的瓶颈。好在这时候第二代测序方法(Next Generation DNA Sequencing, NGS) 终于成功商业化了, 这就是为什么到2007年以后DNA测序的成本呈现出“指数的指数式” 下降。
第二代测序方法和Sanger sequencing从根本上不同的主要有两点。第一个是Sanger sequencing 是一段一段序列分开来测序的, 第二个是Sanger sequencing是靠跑电泳来区分复制产物的长度,并读出序列的。从根本上讲, Sanger sequencing的第二个特点其实决定了它的第一个特点。因为是靠长度来区分,那么一个特定长度必须相应于一个特定的DNA片段。假设一个试管里有两种不同的原始序列, 那么通过复制产生的一个特定长度的单链,就会对应两个不同的DNA片段产物, 这样探测仪就没法区分了。
比如说,一个试管里同时有 ATCGGATCA 和 TTTAAGGCCA两个原始序列,那么长度为六个碱基的复制产物,有50%的机会是以带荧光的A碱基结束,另有50%的机会以带荧光的G碱基结束, 两种荧光混在一起,当然没法确定到底该是A还是G。
从本质上讲,第二代测序方法是去掉了对跑电泳技术的依赖,所以能做到同时读很多DNA序列 (massive parallel sequencing)。和Sanger时代的一家(Applied Biosystems) 独大不同, 第二代测序法有不少公司各辟蹊径, 各自有不同的核心技术。2010年后,一家叫Illumina 的公司逐渐占领了大部分市场,现在已经是第二代测序法的主流。第二代测序法的原理细节比较烧脑,这里就越过不讲了。要记住的是, 第二代测序的核心是把待测序列打断成短片段后大量复制,然后规模化平行读序列(massive parallel sequencing),就是在一个反应器里同时读很多不同DNA片段的意思。
Illumina在第二代DNA测序技术中独领风骚, 原因是他们规模化做得最成功。2018年他们最先进的测序仪器是Nova Seq 6000, 运行一次最多能读出6 trillion 对碱基。这是什么概念呢?人的基因组是3 billion 对碱基,在Nova Seq 6000 一次最多可以读2000个人类基因组。
第三代测序方法 接下来讲第三代DNA测序技术。第二代测序方法的效率已经这么高了,为什么还要发展第三代测序方法呢?
这是因为第二代测序法有两大缺点,一个是在大量复制后才开始读序列。因为大量复制,就不可避免地会产生错误。第二个缺点是能连续读出的序利很短(一般是100到300个碱基这么长),然后用计算方法把短序列串联起来。就像拼puzzle一样,把短的信息整合成能反应全貌的整体信息。但是在碰到很多重复或者类似序列的时候,就有可能拼不出全貌来。就好比很多块puzzle长得一模一样,这怎么拼?
第三代测序方法,核心特点一个是不需通过复制起始序列来放大信号,另一个是能一次读出很长的序列来。 比如PacBio 的仪器平均一次能读出15,000个碱基,最长能读出100,000个碱基。
第三代测序法主要是由两家公司开发的,他们的技术都很有意思,我下面分别说说。
第一家三代测序公司叫Pacific Biosiences, 他们的技术做Single-molecule real-time (SMRT) sequencing, 就是说起始的待读序列是单一个DNA分子, 并且是在DNA复制的时候象拍电影一样实时读碱基序列。他家的技术主要靠解决了几个难题。第一个是改造DNA复制酶,得到能够复制很长的时间都不会掉下来的DNA 复制酶。第二个是制造出非常小的洞来做复制空间,在一个这样的空间里只有一个DNA复制酶在复制一个DNA分子。第三个是探测能力的提升,能捕捉到单个碱基被合成到DNA链里时释放出来的荧光。
以上讲的几代DNA测序方法都是依靠DNA复制这个机理研发出来的。第三代测序的另一家代表公司 (Oxford Nanopore Technologies)的技术则完全跳出了DNA复制这个框框。原理是一条DNA单链穿过一个很窄的蛋白质通道时, 不同的碱基会引发不同的电流运动。
具体执行起来比较复杂,需要好几个蛋白酶通力合作。第一个蛋白酶把DNA双链打开,只让其中一条单链进入通道。第二个蛋白酶的作用是形成这么一个嵌在磷脂膜平面上的通道,第三个蛋白酶在通道里面,把经过的碱基“抓住”,这样可以把碱基通过时电流变化的模式记录下来。
Oxford Nanopore Technologies的技术,目前还没有Pacific Biosciences的技术成熟,他家读序列的长度和规模还都比不了Pacific Biosciences的仪器。但是大家都很看好这个技术,视之为将来测序技术发展的方向。原因是Oxford Nanopore Technologies的技术利用简单的物理原理,只需要测电流的仪器,而不需要激发荧光探测荧光的仪器。所以采用Nanopore技术的测序仪可以做得很小,将来也许能推出便携式测序仪,像个手提包一样拎起来就可以走。
以下是2023年底的更新
根据2023年8月的综述文章,过去几年第三代测序法(一般不叫第三代,而叫long-read sequencing)最主要的进展,是准确率的提高。 PacBio 的新技术在保持一次还能读出 15,000个碱基的同时,把准确率提高到了 99.99%。Oxford Nanopore的技术,能以99%的准确率一次读出 100,000个碱基。两种技术在提高效率和降低成本方面也有了长足的进步,但是和第二代测序法还不能比,所以还有上升的空间。
根据2022年七月的综述文章 , Illumina 在那时候最先进的机器,还是我在正文里提到的2018年出来的 Nova Seq 6000。 这么看来,Illumina 是遇到技术瓶颈了,过去几年没有很大的进步。
2018年11月,Illumina 提出要用12亿美元 (1.2 billion) 买PacBio, 两边的董事会都同意了。这个deal最后在2019年底被美国政府以反垄断的名义制止了。假如Illumina 能买下PacBio的话,绝对是在测序领域一家独大了,因为又有高效massive parallel sequencing的能力,又有 long-read sequencing 的能力。就好比拼puzzle的时候拿到了显示全貌的蓝图,真个天下无敌了。但是这件事没有发生,造就了Illumina现在的颓势。
这是illumina 股票过去5年的走势图,现今的股价是五年前价值的一半不到,比起最高峰的时候(2021年夏天),大概跌去了3/4.
这是Pacific BIOSciences 过去5年的股价走势图,也是在2021年达到峰值,现在10块钱不到。应该是因为规模化还没有达到能改变行业面貌的程度。
最后看一下Oxford Nanopore 的股价。她家2021年10月在伦敦上市,现在股价也很不乐观,我简单翻译为也是没能改变行业面貌,没赚到什么钱。
总结: 过去五年,Illumina 技术没有本质的提高,但仍然占领了测序行业的大部分市场。PacBio 和 Oxford 分别都在提高准确率方面得到很大的进步,但仍然没能到达规模化,所以在市场里还是小头。
最后介绍一下单细胞测序和空间测序的概念。
single cell sequencing, 顾名思义就是分离一个细胞出来测序,从技术上来讲,用的还是第二代测序方法。为什么要分离单个细胞出来测序,而不是用一群细胞测序呢?因为这里测的是RNA不是DNA。除了癌细胞之外,一个人体内所有细胞的DNA序列,也就是基因组序列应该是一样的。就是说你抽血测血细胞的DNA序列,和测肝细胞的DNA序列的结果是一样。如果是这样,当然用血细胞来测DNA序列,因为血细胞比肝细胞更容易得到。
但是人体里各个细胞表达的RNA是不一样的。因为每个细胞都执行不同的功能,这些功能是由这个细胞表达的蛋白质决定的。蛋白质的表达是由这个细胞里RNA的表达决定的,所以想了解一个细胞的功能,就把它分离出来测RNA。这里测的是每一个RNA分子表达的数量,由此推算这个细胞里蛋白质表达的程度。
空间测序测的也是RNA,就是在一个有三维结构的组织(tissue)里,搞明白各个位点上的细胞分别表达了什么RNA。
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
敝帚自珍地给旧帖子做个索引
科普 带状疱疹疫苗和老年痴呆症 https://huaren.us/showtopic.html?topicid=3036146 抑郁症 https://huaren.us/showtopic.html?topicid=2987302 减肥药和糖尿病 https://huaren.us/showtopic.html?topicid=2978393 癌症免疫疗法 https://huaren.us/showtopic.html?topicid=2980052 CRISPR https://huaren.us/showtopic.html?topicid=2939530 2023诺贝尔医学奖 https://huaren.us/showtopic.html?topicid=2956516 DNA 测序 https://huaren.us/showtopic.html?topicid=2981359 营养与健康 (还没写完) https://huaren.us/showtopic.html?topicid=3003953 抗体偶联药物治疗癌症 (还没写完)https://huaren.us/showtopic.html?topicid=2984887
艺术闲话 史上最大艺术劫案 https://huaren.us/showtopic.html?topicid=2957842 Isabelle Gardner Museum和Boston闲话 https://huaren.us/showtopic.html?topicid=2937656
探险故事 1996年珠峰事件 https://huaren.us/showtopic.html?topicid=2924965
职场知识 面试换工作 https://huaren.us/showtopic.html?topicid=2981046 薪资谈判 https://huaren.us/showtopic.html?topicid=2939790 Lean in 读后感 https://huaren.us/showtopic.html?topicid=2986813 职场交流 https://huaren.us/showtopic.html?topicid=3001151 面试官如何挑选候选人 https://huaren.us/showtopic.html?topicid=3019909 演讲的技巧 https://huaren.us/showtopic.html?topicid=3022504
好帖。 mark
谢谢回复,这篇估计没啥人看。不过没关系,对这个话题感兴趣的人如果能从这里得到一些新知识,我就很开心了。
是啊是啊,过去几年又有很大的变化,跟上时代不容易呀!
maxam 和gilbert 的测序方法没有形成规模化商业化,就略过不讲了。
有意思,比 reddit 的 ELI5 好看多了 👍
> DNA总共有四种碱基, A,T,C,G。DNA双螺旋结构的核心,就是固定的碱基配对。 A 配G, C配T。
这有个笔误,配对是 A-T, C-G
怪不得刷leetcode 的有的题就是ACGT的enumeration 之类的。这个一定程度上也是算法问题。
谢谢指正,主楼里改了。
先等我去研究一下oxford的现状,再来回答你这个问题。
这个必须得赞!
single cell sequencing, 顾名思义就是分离一个细胞出来测序,从技术上来讲,用的还是第二代测序方法。为什么要分离单个细胞出来测序,而不是用一群细胞测序呢?因为这里测的是RNA不是DNA。除了癌细胞之外,一个人体里所有细胞的DNA序列,也就是基因组序列应该是一样的。就是说你抽血测血细胞的DNA序列,和测肝细胞的DNA序列的结果是一样。如果是这样,当然用血细胞来测DNA序列,因为血细胞比肝细胞更容易得到。
但是人体里各个细胞表达的RNA是不一样的。因为每个细胞都执行不同的功能,这些功能是由这个细胞表达的蛋白质决定的。蛋白质的表达是由这个细胞里RNA的表达决定的,所以想了解一个细胞的功能,就把它分离出来测RNA。这里测的是每一个RNA分子表达的数量,由此推算这个细胞里蛋白质表达的程度。
空间测序测的也是RNA,就是在一个有三维结构的组织(tissue)里,搞明白各个位点上的细胞分别表达了什么RNA。
👍
我从我的角度补充说几点:
1. Applied tech 最后被thermal fisher 买了 2 illumina 成为了行业垄断者,但是他们接下来无论买什么都被美国或者欧洲否决,否决理由非常有创意。公司另外一个存在的问题是,每几年推出的新机器降低成本,但是以往会有更大的需求,所以营收增长。但是现在新机器推出了,需求没有弥补价格下跌,现在股票半死不活。
另外,我想问现在的single cell 和spacial tech 算是什么样的需求呢?
single cell 和spacial tech 我刚刚在29楼解释了。我是打算跟进一下这几家公司的状况,更新一下主楼的。
Gigi请继续科普。喜欢看,也喜欢各路网友的回复和提问。
请问RNA表达是什么决定的?
嗯,你还记得中心法则吗?DNA -》RNA-》protein。 从DNA读出RNA,这里有很多种不同的调控机制。让我想想怎么说能解释明白。
非常感谢mm的科普!
Synthetic DNA 可以做靶向测序的panel,在肿瘤检测和MRD都有应用。也可以合成antibody做drug discovery。
我错了,没能让你看懂。哪儿不懂?我给你解释一下?
谢谢帮忙回复。
回到这个问题,现在看来, Oxford 和 PacBio还都没达到商业上的成功,第三代还是她们两家在竞争,没有撼动到Illumina 独占市场大头的地位。
假设Oxford 成功了,如果效率还是比不上第二代测序法,那就只能把PacBio 挤出第三代测序的市场, 对Illumina影响不大。要是Oxford 的效率和成本能强过第二代测序法,当然对Illumina的影响会更大。
但是第二代测序法的核心技术就是大规模平行测序,很难想像第三代测序法能在规模和成本方面胜出。
另,附Illumina 和MGI的比较文章 https://alitheagenomics.com/blog/how-do-rna-seq-results-compare-between-illumina-and-mgi-sequencing-platforms?hs_amp=true
我跟这些公司没有任何关系。这篇讲的是三代测序技术原理,所以只提了有代表性的四家公司。我明明说了illumina碰到技术瓶颈,股价比高峰时跌去3/4。就这样。
https://www.genome.gov/about-genomics/fact-sheets/Sequencing-Human-Genome-cost
多谢多谢,更新好了。从图里可以看到,测序的价格在2015年后到了一个平台, 就是二代测序碰到了技术瓶颈,而三代测序没能在降低成本方面超过二代测序。
Alithea 是做3‘end RNAseq的公司。他们写的这篇blog, 结论是华大基因的技术和Illumina的技术在测序质量方面是同一水平,华大基因的技术在降低成本方面更有优势,但二代测序市场仍是illumina 占了大头。
“Together, these cumulative studies indicate that the DNB technology in MGI sequencing platforms produces RNA-seq data of equivalent quality to that produced by Illumina platforms.”
“Alongside reliable and accurate sequencing data, current MGI genetic sequencers provide a lower cost per sample for researchers as they are more scalable than the most recent Illumina models. Despite this, Illumina platforms remain more common than the MGI platform (Jeon et al., 2021).”
沉吟道,也许我有做自媒体的潜力?不过好麻烦,想想还是算了。
我刚试了一下,ChatGPT的改动不大,大概是因为科普语言没什么花花肠子吧。我还是更喜欢我自己的语言,有人味儿。😁
我的原文: “single cell sequencing, 顾名思义就是分离一个细胞出来测序,从技术上来讲,用的还是第二代测序方法。为什么要分离单个细胞出来测序,而不是用一群细胞测序呢?因为这里测的是RNA不是DNA。除了癌细胞之外,一个人体内所有细胞的DNA序列,也就是基因组序列应该是一样的。就是说你抽血测血细胞的DNA序列,和测肝细胞的DNA序列的结果是一样。如果是这样,当然用血细胞来测DNA序列,因为血细胞比肝细胞更容易得到。
但是人体里各个细胞表达的RNA是不一样的。因为每个细胞都执行不同的功能,这些功能是由这个细胞表达的蛋白质决定的。蛋白质的表达是由这个细胞里RNA的表达决定的,所以想了解一个细胞的功能,就把它分离出来测RNA。这里测的是每一个RNA分子表达的数量,由此推算这个细胞里蛋白质表达的程度。
空间测序测的也是RNA,就是在一个有三维结构的组织(tissue)里,搞明白各个位点上的细胞分别表达了什么RNA。”
ChatGTP 给改的: “单细胞测序,字面上意味着分离一个细胞进行测序,从技术层面上说,仍然采用第二代测序方法。为什么要单独测序单个细胞,而不是用一群细胞呢?原因在于这里测的是RNA而非DNA。除了癌细胞外,人体内所有细胞的DNA序列,即基因组序列,应该是相同的。也就是说,如果你提取血液细胞和肝细胞的DNA序列,结果将是相同的。在这种情况下,当然选择血液细胞进行DNA测序,因为血液细胞更容易获取。
然而,人体内各种细胞表达的RNA是不同的。因为每个细胞都执行不同的功能,这些功能由细胞内表达的蛋白质决定。蛋白质的表达取决于细胞内RNA的表达,因此,为了了解一个细胞的功能,需要将其分离出来进行RNA测序。这里测得是每个RNA分子的表达量,由此推断细胞内蛋白质表达的程度。
空间测序也是针对RNA的,即在具有三维结构的组织(称为组织)中,了解各个位置的细胞分别表达了哪些RNA。这有助于揭示组织微环境的分子特征。”
图文并茂。先收藏再学习
多谢mm解释!
个人以为,2023年最大的进展是illumina诸多竞争者涌现,特备是圣迭戈新三家,其中Element Bio和Ultima很有可能在各自niche上大放异彩。中国的几家纳米孔新手也是异军突起,未来可期。
谢谢表扬。生物科学技术总是日新月异,得时时关注才能跟得上最新进展。你提到的这几家我都不了解。
哪儿不太明白呢?我试着再解释一下?
错了。 华大基因的技术是通过收购CGI获得的。CGI是2005年成立的,2013年被华大收购的。在收购CGI之前,华大基因只是提供基因测试服务(就像买了打印机帮人打印服务一样),收购CGI后才正式拥有了技术平台。
另华大在湾区有office,他们既有测试服务,也买测试设备。并不需要送回中国。他们前一阵还打赢了和Illumina的一个专利战。
从技术角度来说,至少我本人的认知,long-read sequencing应该不会成功(速度,容错率,成本等等)。最后应该是Illumina和华大两家独大,其它公司最后会死掉。
CGI 那段我确实不了解, 谢谢指正。华大基因确实在美国是被ban了, 目前他们请了lobbist 游说。
https://www.politico.com/newsletters/politico-influence/2023/11/29/potential-crackdown-on-foreign-genomics-firms-sparks-a-lobbying-fight-00129184
“— The House bill names several Chinese companies that would be subject to the ban, including Shenzhen-based BGI Group. Subsidiaries of BGI have already been placed on numerous U.S. blacklists over allegations that their genetic analysis has been used in surveillance and repression of minorities by the Chinese government. — Over the summer, BGI Group retained a team of lobbyists at Steptoe & Johnson over the summer that includes former Puerto Rican Gov. Luis Fortuño and former trade official Jeffrey Weiss to lobby on the genomics language in the NDAA, paying the firm a whopping $270,000 for the work between July and September. — An affiliated genomics company that would be subject to the ban, Complete Genomics, also turned to K Street for help in recent weeks. The company, which is owned by former BGI Group subsidiary MGI, brought on The Vogel Group in September to lobby on “health care, industry competition, and market access” issues, according to a registration filing. The firm’s third quarter report shows it was paid $150,000 for less than a month of work to lobby on the genomics provision."
https://www.reuters.com/markets/us/us-adds-chinese-genetics-company-units-trade-blacklist-2023-03-02/#:~:text=The%20Biden%20administration%20on%20Thursday,ratchet%20up%20tensions%20with%20Beijing.
"The Biden administration on Thursday added 37 companies to a trade blacklist, including a unit of Chinese genetics company BGI Genomics Co Ltd. (300676.SZ) and Chinese cloud computing firm Inspur, in a move that promises to further ratchet up tensions with Beijing."
目前第一代测序还有少量应用,主要两种情况:一是小的研究项目,用不着上第二代测序;二是验证第二代测序的结果。比如罕见病诊断,现在都是第二代测序一下子给很多基因测序,如果发现了致病突变,再用Sanger sequencing 证实。基本上Sanger sequencing result 还是gold standard。
IVF胚胎筛选也是如此?
胎儿在母体里的时候,会有很少量的胎儿DNA进入母亲的血液循环系统, 所以抽母亲的血就能测出胎儿的基因型,这叫NIPD, non-invasive prenatal diagnosis https://www.webmd.com/baby/non-invasive-prenatal-diagnosis-nipd
IVF的时候,精子卵子在培养皿里结合,成为受精卵,然后受精卵开始分裂,等到第五天的时候,分裂成250到300个细胞的群体,这叫囊胚 (blastocyst),里面有两种细胞,一种将来能发育成胎儿,另一种将来能发育成胎盘,虽然功能不同,这两种细胞的DNA系列是一样的,都是从受精卵来的。这时候可以从将来发育成胎盘的细胞里取出5到6个细胞测DNA序列,这不会影响胎儿的发育。通过测序,就可以知道这个胚胎基因组是否正常,只选正常的健康的胚胎放到母亲的子宫里让它发育。这个筛选过程叫 PGD, preimplantation genetic diagnosis。不知道说清楚没有?
“从根本上讲, Sanger sequencing的第二个特点其实决定了它的第一个特点。因为是靠长度来区分,那么一个特定长度必须相应于一个特定的DNA片段。假设一个试管里有两种不同的原始序列, 那么通过复制产生的一个特定长度的单链,就会对应两个不同的DNA片段产物, 这样探测仪就没法区分了。
比如说,一个试管里同时有 ATCGGATCA 和 TTTAAGGCCA两个原始序列,那么长度为六个碱基的复制产物,有50%的机会是以带荧光的A碱基结束,另有50%的机会以带荧光的G碱基结束, 两种荧光混在一起,当然没法确定到底该是A还是G。”
你引用的这段说的是Sanger sequencing,就是一代测序。第二代测序原理不同,完全不在乎这个,可以同时测好多片段,而且这些片段长度都差不多,大概150到200 个碱基长。
谢谢MM的回答!我太懒了,应该放一下狗或者GPT的:)
没事儿,我也顺便复习一下