文/在前线 老凉
当生物技术与智能云科技相遇,会碰撞出怎样的火花?
疫情放开,甲流又现,频发的黑天鹅事件让人感慨自然的深不可测。面对更多未知的领域,人类紧握生物技术的剑柄,而云、人工智能等科技力量的注入,更加磨利了生物技术创新的锋刃。
近日,中国科学院天津工业生物技术研究所(简称“天津工业生物所”)与亚马逊云科技联合在天津举办“生物计算设计”沟通会,共同解读当前生物技术与信息技术(BT+IT)融合创新的发展现状,以及借助云的力量,进一步助力在生物领域的科研探索。
天津工业生物所副所长王钦宏介绍到,研究所创立的背景,是探索工业生物技术能否作为一个手段或途径,来解决目前全球经济社会面临的气候、环境、能源、资源等问题。研究的核心是工业生物设计,这就离不开强大的计算能力。
天津工业生物所与亚马逊云科技合作,共同探索BT+IT的技术体系,推动合成生物学发展。截至目前,天津工业生物所已推出首个基于图数据库的大肠杆菌调控代谢关系知识图谱ERMer,以及全流程高通量编辑序列设计云平台AutoESD等20多项生物计算设计工具和软件应用。
在前线认为,行业数字化的演进让云的能力不断进步,应用范围也快速拓展,生物技术与云的结合,是行业发展的必然,也是加快创新必行之路。天津工业生物所携手亚马逊云科技,通过云原生的开发方式,大幅缩短开发时间,提升科研效率,在核心数据库和专业应用工具设计两大研发方向上实现了技术突破。未来,双方还会在BT+IT的基础上,实现AI+BT的大规模应用,再度加速合成生物学的发展。
产业挑战,生物技术创新遇三难题
工业生物,是实现串联整个生物技术的核心,相当于IT的芯片。要设计好工业生物,就需要强大的IT技术支撑。
天津工业生物所成立于2012年,十多年的发展,逐渐形成了六大平台,包括技术创新、工程技术、产业转化、企业培育、基础设施、产品安全。值得一提的是,在技术创新板块,天津工业生物所成立了国家合成生物技术创新中心,同时,依托研究所构建两大创新平台,一是集成国内外一些顶尖高校和机构,共同成立全球科技创新网络;二是集成国内相关领域的大型企业、高新企业,成立生物制造产业创新联盟。
两大创新平台,相互连接,就能打通整个科技创新跟产业应用的桥梁。而面对更加复杂多变的生物技术,算力的加强迫在眉睫,与云的融合势在必行。
天津工业生物所生物设计中心副主任廖小平表示,生物计算设计是合成生物学中重要的一环,在研发过程中,主要面临几个方面的困难。
一、团队规模有限。廖小平谈到,天津工业生物所从2019年开始关注云计算在生物领域的应用,而原因就是当时面临的首要困境:团队规模不大,尤其是开发人员,数量有限。不仅如此,整个团队还要兼顾多个应用场景,开发不同的应用需求,有时还需要开发好几个任务,使得应用开发进度十分缓慢。
二、应用开发难。以大肠杆菌的调控代谢知识图谱为例,细胞中的代谢调控非常复杂,一个特定的细胞功能往往由一系列不同类型的调控相互作用控制。比如说氨基酸,反馈环路复杂,但由于缺乏对相应调控关系的全局认识,真实细胞改造中经常会触发一些复杂的调控机制,从而无法达到预期目标,这也是现在研发中的一个共性基础问题。
而对于科研人员来说,这些调控机制十分重要,但获取困难,因为通常不同类型的调控数据会散落在不同的数据库里面,导致其很难通过一个方便的方式来识别这些复杂的关系。这就需要研发人员找到开发一种能够支持异质数据互通的新框架。
另外,在工业生物应用场景中,经常需要构建突变菌株,其过程涉及多种分子生物学实验操作,如质粒构建、感受态制备、克隆挑选、PCR验证、菌株培养/转接、筛选验证等,实验周期长,且多个环节都涉及多种编辑序列的设计。
以往,实验人员更多是基于经验进行人工设计,但这种方式涉及大量人工操作,很容易由于某一个细节的疏忽导致整个构建过程失败。这就需要研发人员能够将实验流程标准化、模块化,并能实现全流程的设计。
这些特定的开发需求,再加上生物计算设计面临着算法、模型等诸多难题,给研发人员带来了很大的挑战。
飞跃云端,加速科研成果应用转化
面对这样的局面,天津工业生物所与亚马逊云科技合作,借助云的强大计算能力,推动产业探究,提升科研业务的效。从原来基于服务器端的开发模式,逐渐转向于云原生的开发模式。一系列动作下,天津工业生物所的生物计算设计创新也走上了“快车道”。
基于Serverless的云原生架构,天津工业生物所加快开发过程。利用Serverless服务,可以科研人员不需要在IT基础设施的繁杂工作中耗费大量精力,而是将更多时间投入到业务场景中,去构建和运行应用程序,在复杂任务编排或高性能计算的场景中实现云原生架构。
这主要是因为,Serverless架构具备灵活应用、可靠稳定的优势。科研人员不需要管理服务器,在亚马逊云科技弹性扩展的管理模式下,所有规模都能得到良好的性能表现。而且在云原生的Serverless场景下,用户可以更细粒度做应用的计费,不再是以秒进行计算资源计费,而是以毫秒级对业务做计费。
得益于双方的合作,在云的力量的加持下,天津工业生物所已经取得了一系列的成果。面向微生物遗传操作,天津工业生物所生物设计中心团队开发得到了第一个能够在所有操作类型、任何基因组位点和跨物种上进行精确、自动化和高通量编辑序列设计的云平台AutoESD。将基于同源重组构建突变菌种的五种不同技术变种进行模块化划分,按照实验过程分解成模块,然后分解、对应,然后通过程序流的方式进行编排,最后实现从一个统一入口针对多个应用场景的工具部署。
廖小平介绍到,由于借助了Serverless的方式,AutoESD实现了很好的扩展性,以及优异的高通量性能。在AutoESD的帮助下,我们能在十分钟之内完成上千个编辑序列设计任务,并且可以同时服务几百个用户。
Serverless服务让天津工业生物所团队进一步简化运维,使得开发人员可以专注于业务代码和创新,与传统开发方式相比,开发时间缩短了75%,总体拥有成本降低50%。
此外,天津工业生物所生物设计中心团队还联合亚马逊云科技团队在计算生物学国际期刊《Nucleic Acids Research》(《核酸研究》)上发表了首个基于图数据库Amazon Neptune的大肠杆菌调控代谢关系知识图谱ERMer,首次提供了全局的代谢调控图谱,并通过可视化框架实现丰富的搜索功能,如多步查询、最短路径查询等。
经过这几年的探索和合作,天津工业生物所利用云的力量,大幅提升了科研业务效率。从2019年到现在,天津工业生物所生物设计中心团队已经在云上部署了超过20个云端应用。
融合突破,从“BT+IT”到“AI+BT”
在天津工业生物所与亚马逊云科技的合作中,AI技术的应用逐渐凸显。而上半年火热的大语言模型,预示着AI进入到了2.0阶段。如何借助AI的力量,与BT行业结合,撬动研发新范式,成为天津工业生物所下一步的目标。
廖小平表示,生成式AI,包括大语言模型,对生物计算设计有着明显冲击。借助大语言模型,可以快速提升预测效果,这也是下一步需要去做的事情,尽快部署在生物计算领域或合成生物计算领域中自己的大语言模型。
其实,天津工业生物所已经初步部署了一些智能化应用,比如在调控数据这一场景,首先从不同的数据源中搜集数据,之后借助Amazon Neptune图数据库当作搜索后台,并在其中加入一些智能化应用。用户只需通过点击选择就能很方便地完成一些交互式和调控链路的检索,还可以通过智能化的问答,更快速的地获取复杂的调控关系。
当然,从“BT+IT”,向“AI+BT”迈进,同样面临着很多直接的问题,比如在快速开展AI业务时,如何避免复杂或高昂的学习成本。在这方面,亚马逊已经进行了相关探索和布局。
首先,算力层面。亚马逊云科技与英伟达等硬件厂商紧密合作,实现不同算力需求的供给;
其次,数据层面。存储端,亚马逊云科技拥有丰富的文件系统、存储服务,可以承载数据存储需求。训练端,亚马逊云科技可以提供对应关于AI的特征工程、数据处理、大数据服务。同时,亚马逊云科技还联合全球范围内的科研机构合作一些公开数据集,免费开放,用户可以使用这些公开数据集做数据的预处理;
最后,算法层面。亚马逊云科技内部有多领域的AI开发团队,如上海AI Lab开发的DGL深度图学习框架。除了开源项目,亚马逊云科技还提供Amazon SageMaker这种端到端的机器学习服务,内置AI算法,让用户能够快速使用。
在前线认为,生物技术革命浪潮席卷全球,在经济社会中扮演的角色也愈加重要。天津工业生物所秉承创新而立,BT+IT的融合模式,为工业生物突破壁垒提供了动力。与此同时,生物领域的未来充满了无限挑战与可能,利用云的力量,不仅能促进行业数字化建设,还能显著提高工业生物的设计能力。
未来,天津工业生物所与亚马逊云科技的合作,会基于AI大模型的发展进入2.0阶段,从“BT+IT”向“AI+BT”迈进,进一步推动生物领域的创新与发展。