专题
作者 Nancy Maddox

2011年5月对德国卫生官员来说是非常糟糕的一个月。一种异常强毒性的大肠杆菌菌株在国内横行,导致数千人患病,并最终导致53人死亡。当局最初认定西班牙黄瓜是此次爆发的源头,但是——在由此致使西班牙出口商损失了数亿美元之后——黄瓜被证明无关。

然后该怎么办?

加入Ion Torrent,Life Technologies的新一代测序(NGS)平台之一

两组科学家利用Ion Torrent在三天内解密细菌的整个基因组。详细的分子信息实现了实时定量PCR检测的开发,以便区分爆发菌株E. coli O104:H4和极其相近的菌株。反过来,这项检测让实验室的科学家能够高效筛查食品供应。不久之后,真正的罪魁祸首现形:生长在德国下萨克森州的豆芽。

此次爆发的解决只是一个例子,说明了NGS技术的力量。Ion Torrent及其同类产品正矗立于微生物检测平台的前沿,带来了比以往任何技术更高数量级的信息。

然而,尽管NGS已用于一些引人注目的疾病研究 – 例如,在美国国立卫生研究院(NIH)临床中心爆发肺炎克雷伯菌(Klebsiella pneumoniae)期间追踪菌株的传播链 – 但它大多局限在高端的研究实验室,如NIH中的那些。如今随着更小巧、更廉价平台的上市,这项技术正步入公共卫生领域。

公共卫生实验室协会(APHL)传染病项目的主管Kelly Wroblewski预计,“少数,或者为数不多”公共卫生实验室(PHL)有能力使用NGS。然而,即使在这些实验室,大部分“新一代”项目仍在启动阶段。

康涅狄格州公共卫生实验室的主管John Fontana博士表示:“就[NGS]而言,我想说的是它使用起来并不简单。目前还没有标准的方法来分析数据。我认为从测序仪中获得信息是比较简单的部分。而最难的部分在于开展分析。这才是资源缺乏之处。”

Fontana有一台Ion Torrent,他依靠一名康涅狄格大学专业科学硕士课程的实习生来“让它运转”。

与大部分公共卫生实验室一样,康涅狄格的实验室没有专门的研究团队。正如Fontana所言,“我们在等待别人开发出[最优方法],并在分析时给予我们协助。”这个愿望 – 几乎是本文所有受访者的愿望 –最终将会实现。Life Technologies Ion Torrent业务部门的产品经理Andy Felton博士谈道,NGS平台的数据格式已经是“相当标准的”。他认为,厂商正在开发应用软件,“以协助人们理解NGS所产生的大规模数据集。开展分析的工具将越来越简单……这只是个软件进化的问题。

如果以历史为鉴,那么在谈到遗传学相关的创新时,进化的车轮正越转越快。

一分钱13,330个碱

在1953年首次发现DNA双螺旋结构以来,技术变革的步伐一直在加快。首批测序技术在20世纪70年代被开发出来。其中最引人注目的是英国生物化学家Frederick Sanger的成果,他在其方法首次亮相的那一年分享了诺贝尔化学奖。然而,尽管最初的Sanger测序技术是一种突破,但也是一件繁琐而费时的事情。




康涅狄格实验室的Ion Torrent将被用来确定获取与爆发有关肠道病原体的相关序列数据是否可行,
如MLVA模式、耐药基因和毒素基因

根据这一方法,单链DNA模板被复制,并分成四个测序反应。每一个都需要特殊设计的引物、聚合酶、四种DNA核苷酸(腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶,或A、T、G、C)以及一种经过修饰、放射性标记的“双脱氧”核苷酸来终止链的延伸。最终结果是四种大小不同的DNA片段混合物,在A、T、G或C每一次出现时终止。随后将这四种混合物加热变性,并在四根柱内运行,利用凝胶电泳根据大小分离这些片段。最后,在暗房中显影凝胶的照相胶片,以便印出放射性的DNA条带。根据条带的相对位置,可自下而上从胶片上读取遗传序列。但这一过程与其说是一门科学,不如说是一门艺术。(当然,它也能用于RNA的测序。)

利桑那州公共卫生实验室的负责人Victor Waddell博士曾在爱尔兰读研究生时使用过这一方法。他回忆道,“失败过很多次”。即使在最好的情况下,一星期也只能获得300至1,200个碱基对。

最初的创新是使用四种不同颜色的荧光标记来取代放射性标记,让四个反应可一起运行,并省去了胶片的步骤。后一次改进是在80年代末,以毛细管电泳来取代凝胶电泳。最后,采用毛细管阵列来加速这一过程。Sanger测序的自动化版本是在lab-on-a-chip上实现,使用纳升级溶液。即使是在今天,它也被视为金标准的测序方法,是27亿美元人类基因组计划的基础。

问题在于Sanger测序不能够扩展到高通量的应用。

第一批NGS方法是在2005年提出的,基于大规模并行测序技术。基本原理是大规模复制DNA(或RNA)样品;将其打断成随机的短片段;对这些片段进行测序;并将产生的数据输入软件程序,通过鉴定片段的重叠区域,将碎片拼接成原先的长序列。

Daryl Lamson协助管理纽约沃兹沃斯中心(州立公共卫生实验室)的特殊项目。他谈道:“你可以获得一个区域的数百个重复序列。软件将它们进行排序。但是,你必须要能够理解软件在做什么 – 它能够做什么以及它不能做什么 – 以及你打算如何处理序列中的缺口。肯定会有缺口。”

测序本身可由不同的方法实现,这取决于检测平台。罗氏的GS FLX 454是第一个商业化的NGS平台,它使用一种边合成边测序的方法,称为焦磷酸测序。仪器在单链DNA片段的每个位置依次加上A、T、G和C。每次一个核苷酸成功与链结合,发出一道光,并被仪器记录,仪器一次能够监控几十万个闪光。Ion Torrent使用相似的技术,但检测测序反应的副产物(氢离子)的释放,而不是闪光。一些其他的方法也在使用中。

NGS技术的优势很明显。Sanger毛细管平台将在一小时内对1,000个碱基对测序,花费10美元,即一美分一个碱基。而Ion Torrent将在2-3小时内对十亿个碱基对测序,花费750美元,即一美分13,330个碱基。

 
Ion 314芯片

你是不是吃过了这种奶酪?

NGS所提供的详细信息与公共卫生的许多领域相关,但必须妥善管理。例如,病毒有着5,000至200,000个碱基对的基因组,而细菌基因组可能超过500万个碱基对。

Waddell指出,最新的技术能产生PB(petabyte)级别的数据,大约是服务器可存储数据的几百倍。他表示:“生物信息学方面正在努力赶上。”

但是这些数据揭示了什么。

去年,巴雷利沙门氏菌(Salmonella Bareilly)在28个州和哥伦比亚地区出现,让400多人患病。流行病学数据指出污染的食品源是海鲜,很可能是金枪鱼。来自CDC的国家食源性疾病监测网络PulseNet的数据将沙门氏菌与东南亚联系在一起,它利用脉冲场凝胶电泳(PFGE)对细菌病原体进行指纹图谱分析。

然而,最终破解这一疫情的是全基因组数据,它表明这种沙门氏菌与早前在印度一个工厂所加工的虾中发现的沙门氏菌几乎相同。实际上,被污染的产品 – 从剔骨金枪鱼的骨头上刮下的鱼肉 – 来自Moon Fishery公司,它距离虾加工厂仅五英里。
纽约州农业与市场实验室的资深细菌学家Brian Sauders博士认为:“这一[遗传]信息能帮助FDA的官员集中精力,发现爆发的源头。这是一笔巨大的财富。”

Sauders认为全基因组数据有望带来多种食源性细菌的“不完全生物地理学特征”——在这样一个全球食品分销的时代,这是个宝贵的调查工具。

同时,一些传染性病原体的所谓系统地理学信息也已获得。例如,不同的HIV病毒株与不同的地理位置相关联。此外,在2010年,微生物学家还追踪了尼泊尔地区海地地震后引起霍乱爆发的霍乱弧菌(V. cholerae)的起源。

部分因为巴雷利沙门氏菌事件,美国食品药品监督管理局(FDA)推出了一个项目,建立细菌基因组的数据库,从沙门氏菌、产志贺毒素的大肠杆菌和李斯特菌开始。

Sauders表示,考虑到数据库足够大,流行病学调查可大大简化。“不用询问患者,‘你三个星期前吃了什么,可能含有李斯特菌,’知道了菌株的基因序列,就表明它很可能来自某个品牌的奶酪。我们可以问,‘你是否吃了这种奶酪?’”

亚利桑那州公共卫生实验室、纽约州卫生署沃兹沃斯中心、华盛顿州公共卫生实验室和佛罗里达州卫生署正在与FDA合作开展基因组测序项目。FDA为这些实验室提供NGS测序平台,而样品(全部来自已知的环境来源)将来自州立实验室的新来和现有分离株。

沃兹沃斯中心细菌性疾病的主管Kim Musser 博士表示,她的团队将从4月开始测序,预计一年报告300至400个细菌基因组。所有数据,包括与每个细菌来源相关的元数据,将上传到美国国家生物技术信息中心,并几乎实时公开。Musser认为,全基因组测序(WGS)将提供“很多从分型中无法获得的辅助信息:耐药性、毒力、传播性,各种信息,原本须进行脉冲场凝胶电泳(PFGE)分析同时五次PCR检测才能获得,如今你可以在一次检测中全部了解。”

基因组数据也将帮助科学家了解基因型与表型的更多关联;亚型的季节性分布;以及哪种病原体最有可能携带了染色体外DNA,如质粒,因此是高度重组的。

Sauders认为:“关键在于,这是定量、分类学上有意义的数据,对微生物学家而言是圣杯(无价之宝)。”

去年,沃兹沃斯中心中心细菌学实验室的William Wolfgang博士开始了一项回顾性研究。他与康涅狄格州公共卫生实验室、FDA和康奈尔大学食品科学系合作,来证明WGS如何促进2010年肠炎沙门氏菌(Salmonella Enteritidis)疫情的研究。疫情是以康涅狄格州的长期护理中心为核心,而流行病学数据表明它与在纽约面包店所购买的的奶油甜馅煎饼卷(cannoli)有着很强的关联。




美国生物分析委员会(ABB)的实验室主任John Fontana博士和微生物学家Sally Fraley正将芯片上样到Ion Torrent中。
Katherine A. Kelley博士来自康涅狄格州公共卫生部门的公共卫生实验室

肠炎沙门氏菌对研究人员而言一直是个麻烦;它是种遗传变异很少的无性繁殖生物。“大部分都有着几乎相同的PFGE模式。但PFGE只抽样[基因组上]几十个位点,远不及WGS的五百万个核苷酸,”Wolfgang解释道。

同期肠炎沙门氏菌分离株的WGS表明,一些社区居民也感染了爆发菌株。Wolfgang谈道:“如果流行病学家当时意识到这一点,那么他们就会质疑长期护理中心之外的更多人。面包店可能并非最终来源;也许是鸡蛋,它通常与肠炎沙门氏菌有关。”




纽约州卫生署沃兹沃斯中心新生儿筛查项目的DNA实验室工作人员。
(从左到右依次是:April Parker、Jason Isabelle、Lea Krein、Allison Young、Lisa DiAntonio、Carlos Saavedra-Matiz、Matthew Nichols。)

WGS在食源性疾病监控中的价值并没有CDC所忽视。美国PulseNet的团队负责人Efrain Ribot博士表示,该机构很久之前已经认识到PFGE在无性菌株上的问题。在NGS出现之前,他们的早期尝试之一是CDC资助的多位点可变数目串联重复序列分析(MLVA)的开发。但MLVA有其自身的问题,是物种和血清型高度特异的,因此检测方法无法推广。

Ribot说:“我设想,NGS平台将在五年内取代MLVA,并有可能也取代PFGE。”关键是要开发检测方案,产生可采取行动的数据,至少与PFGE一样快,特别是在疫情爆发时。Ribot谈道:“对于WGS,我们还没有时间表,因为数据分析是瓶颈。我们将要面对的是建立正确框架的问题。你如何存储数据?……我们需要数据仓库和管道,让我们能够实时监控。我们还要尽力确保我们为PulseNet所建立的NGS模型是其他公共卫生实验室的人员也能执行的,而他们几乎没有生物信息学经验,或很少。这都是可行的,但需要时间和资源。”

‘很激动,但也有些害怕’

同时,那些有着新一代测序平台的公共卫生实验室也在继续探索这项技术的作用。

亚利桑那州公共卫生实验室是CDC公共卫生突发事件项目资助的几个实验室之一,它利用焦磷酸测序来监控流感病毒中耐药性的发生。

沃兹沃斯中心的一个项目关注腺病毒,这是由纽约州的几次爆发促使的。

沃兹沃斯中心病毒性疾病部门的主管Kirsten St. George博士表示,流行病学证据表明,并非所有爆发事件都是有关联的。不过,她谈道:“现有的分子技术无法找到[爆发生物]之间的差异,而个别基因的测序不一定能说明它们之间的显著差异。”

因此科学家们利用Ion Torrent对整个腺病毒基因组进行测序。

“我们对它产生的数据感到很惊讶,”St. George说道。“一些差异分布在整个基因组。的确需要对整个基因组测序,才能获得整套突变。”

St. George认为,WGS将对型间重组的研究特别有用 – 例如3型和7型腺病毒的重组 – 这会搞乱整个监控画面。“一种方法会说是3型,而另一种会说是7型。国内的病毒是哪种?真正致病的是哪种?”

对于WGS在新生儿筛查上的应用,也是希望和风险并存。每个人的基因组有三十亿个碱基对,且个体之间可能存在数百万个变异,数据分析本身就令人难以置信,更何况还有伦理方面的考虑。然而,WGS已用在科研条件下,来协助诊断新生儿重症监护室中的婴儿,他们被怀疑患有遗传疾病 – 这在很大程度上依赖于每个婴儿的症状来进行数据分析。沃兹沃斯中心已经获得了一项NIH资助,研究部分新生儿的外显子组测序的意义,外显子组即基因组中编码蛋白的区域。该项目会将指定婴儿的遗传发现与传统新生儿筛查的结果进行比较,这些婴儿的筛查结果呈阳性,或确认患有疾病。

沃兹沃斯中心新生儿筛查DNA实验室主管Carlos Saavedra-Matiz医学博士提到:“很激动,但也有些害怕。我们将得到什么?结果的临床解释是最大的挑战。”

短期内,新生儿筛查中的NGS可能局限在定向基因测序,作为初步筛查阳性结果的第二层检测,以降低假阳性。例如,五大湖地区的一组研究人员正在评估新一代测序用于囊性纤维化基因的测序,这样科学家们能在囊性纤维化突变分析的新生儿中找到第二个突变。沃兹沃斯中心也在寻找资助,来开发和评估严重联合免疫缺陷的第二层检测,它将利用NGS来破译20个完整基因。




华盛顿州公共卫生实验室,微生物学家Kaye Eckmann正在制备沙门氏菌分离株,
用于PFGE分型,以支持食源性污染的检测

从长期来看,可能性似乎远远不止新生儿筛查及其他公共卫生实验室项目。

Life Technologies在2012年9月推出了台式Proton系统,能够以1,000美元对整个人类基因组测序。Felton表示,公司明年将推出适用于Proton平台的第三代半导体测序芯片,有可能将成本降低一半。他表示,目的是为了让这一技术“非常小、廉价且快速。”

对于许多正在开发的NGS技术,也许最让人兴奋的是利用原子分辨率的透射电镜直接观察DNA碱基对。来自哈佛大学、新罕布什尔州大学和ZS Genetics的一组科学家已经利用此技术,通过序列特异、重原子标记的DNA“读取”了一个3,272个碱基对的DNA分子以及一个7,249个碱基对的病毒基因组。

但在最终的分析中,购买仪器将是比较简单的部分。即使是制造商达到了Sauders所说的“成本与速度的最佳点”,但还是由公共卫生领导者来对其进行排序,决定新技术的最佳用途,确保适当的人员培训,并制定质量标准、生物信息学能力和监管标准。目前,临床实验室开展NGS的第一个认证标准正在实施,是由美国病理学家协会在去年夏天发布的。

CDC的Ribot预测,标准化 – PulseNet检测的标志 – “将让它与今天完全不同。”他表示,“对于序列是如何产生的,我们未必能标准化每一个元素,因为它是平台特异的。标准化将最有可能集中在数据层面,在数据质量和数据分析中使用严格的参数。”

最终,NGS将代表机遇和挑战。正如Fontana所言,这是个“美丽新世界”。




IT/Sanger比较序列