米兰·(milan)中国官方网站-AI 与合成生物学「联姻」的五大挑战:技术、数据、算法、评估与社会学

来历丨ACM通信
编译 | 王玥
编纂 | 陈彩娴于已往的二十年里,生物学发生了翻天覆地的变化,成立于生物体系上的工程成了可能。付与了咱们细胞遗传暗码(DNA)排序能力的基因组革命是这一巨年夜变化的重要推手。而基因组革命带来的最新发明之一,恰是利用CRISPR于体内切确编纂DNA的能力。
遗传暗码的高级体现,如卵白质的合成,被称为「表型」(phenotype)。高通量表型数据与DNA的切确编纂联合到一路,将底层代码的变化与外部表型接洽了起来。

图注:Wacomka

图注:本图表现了细胞遗传暗码(DNA)的高条理体现

图注:生物学中常常利用的数据集/数据类型(本列表收录不全)
1合成生物学的潜力合成生物学将对于食物、能源、天气、医药及质料……以至在世界上每一个范畴都孕育发生厘革性的影响。

图注:合成生物学可能会影响世界上的每个范畴
合成生物学已经经为众人带来了不消捐躯猪就能得到猪的胰岛素(于以前的基因工程阶段就能做到)、合成皮革、压根不是蜘蛛吐的蛛丝做的年夜衣、抗疟疾及抗癌药物、尝起来像肉的无肉汉堡、可再生生物燃料、没有啤酒花的啤酒花味啤酒,已经灭尽了的花朵的喷鼻味,用在化妆品的人造胶原卵白,消弭携带登革热蚊子的基因。很多人认为这只是冰山一角,由于设计生物的能力带来了革新世界的无穷可能性,并且于这一范畴,大众及私家投资程度都于不停增加。

图注:学术(a)及贸易(b)范畴的显著增加为 AI 于合成生物范畴的运用提供了富厚的信息、数据及情况资源。
此外,进入AI 第三次海潮后,AI 专注在将情况融入模子,其影响合成生物学的潜力年夜年夜增长。
尽人皆知,生物体的基因型与其说是其表型的蓝图,不如说是一个繁杂的、彼此联系关系的、动态体系的初始前提。生物学家们花了几十年的时间来构建及治理一套年夜型包罗调治、联系关系、变化速率及功效于内的属性,用来描写这个繁杂的、动态的体系。其他资源如基因收集、已经知功效联系关系、卵白质与卵白质的彼此作用、卵白质与代谢物的彼此作用以和转录、翻译及交互的常识驱动的动态模子则为人工智能模子提供了富厚的资源。
模子的可注释性对于在展现新的设计原则也是至关主要的。这些模子给了生物学家去解决关在生物体系的更繁杂的问题的能力,而且成立综合的、可注释的模子去加快发明与研究。咱们可以从合成生物学出书物的数目以和合成生物学的贸易时机中较着看出该范畴常识及资源的增加。
2AI 和其对于合成生物学的影响与AI于合成生物范畴的潜力比拟,它于合成生物范畴的影响有限。
咱们已经经看到了AI的乐成运用,但仍旧局限在特定的数据集及研究问题。AI于该范畴今朝面临的挑战,仍旧是对于更广泛的运用步伐及其他数据集来讲有多年夜的通用性。
数据挖掘、统计及机械建模今朝是该范畴计较生物学及生物信息学的重要驱动因素,但这些技能与人工智能/呆板进修之间的边界往往是恍惚的。例如,聚类是一种数据挖掘技能,可以辨认基因表达数据中的模式及布局,这些模式可以注解工程修改是否会致使细胞的毒性成果。这些聚类技能还有可以作为无监视进修模子,于未标志的数据集中找到布局。这些正于开发中的经典技能及新的AI/ML(呆板进修)要领将于将来的范畴合成生物中阐扬更年夜的作用及影响,由于届时人们对于在更年夜的数据集将司空见惯。转录组数据量每一7个月翻一番,卵白质组学及代谢组学的高通量事情流程愈来愈可用。
此外,试验室事情微流控芯片的慢慢主动化及小型化预示着将来数据处置惩罚及阐发将使患上合成生物学的出产力倍增。DARPA的协同发明及设计(SD2, 2018–2021) 规划专注在构建人工智能模子,旨于拉近AI与合成生物学需求的差距。这一点于一些采用该范畴SoTA技能的公司中也很较着(例如Amyris、Zymergen或者Ginkgo Bioworks)。
AI及合成生物学于一些方面存于堆叠,好比将现有AI/ML运用在现有数据集;天生新的数据集(例如行将到来的NIH Bridge2AI);并创造新的AI/ML技能来运用在新的或者现有的数据。虽然SD2于末了一项中有所孝敬,但其仍有必然潜力,将来也有较长的路要走。
人工智能可以帮忙合成生物学降服一个年夜挑战,即猜测生物工程要领对于生物主体及情况的影响。因为没法猜测生物工程的成果,合成生物学的细胞工程方针(即逆设计)只能经由过程年夜量的试错来实现。人工智能提供了一个使用公然数据及试验数据来猜测对于生物主体及情况影响的时机。
为细胞编程设计遗传布局。 很多合成生物学范畴的研究都集中于基因布局/基因路线的工程上,这与设计电子电路面对着的挑战截然不同。
人工智能技能联合了已经知的生物物理、呆板进修及强化进修模子,可以或许有用猜测布局对于主体的影响,反之亦然,虽然已经经颇为强盛,但仍旧有改良空间。而于呆板辅助基因路线设计方面,已经有各类人工智能技能投入运用,此中包括专家体系、多智能系统统、约束推理、开导式搜刮、优化及呆板进修。
基在序列的模子及图卷积收集于工程生物体系范畴也获得了存眷。因子-图神经收集已经被用在将生物常识纳入深度进修模子。图卷积收集已经被用在从卵白质与卵白质彼此作用收集中猜测卵白质的功效。基在序列的卷积及递归神经收集模子已经被用在辨认卵白质的潜于联合位点、基因的表达及新的生物布局的设计。人工智能最有效的地方是运用在开发综合模子,而这将削减需要举行的试验或者设计的数目。
代谢工程。于代谢工程中,人工智能已经经运用到生物工程历程的险些所有阶段,例如人工神经收集已经被用在猜测翻译肇始位点,解释卵白质功效,猜测合成路子,优化多个外源基因的表达程度,猜测调控元件的强度,猜测质粒表达,优化养分浓度及发酵前提,猜测酶动力学参数,相识基因型与表型的联系关系,猜测CRISPR的引导效果等阶段。聚类已经被用在发明次生代谢物生物合成基因聚类及辨认催化特定反映的酶。调集要领已经被用在猜测路子动态、最优生长温度,并于定向进化要领中找到付与更高顺应度的卵白质。撑持向量机已经被用在优化核糖体联合位点序列及猜测CRISPR指导RNA的举动。于代谢工程的各阶段中,人工智能最有但愿被运用在流程放年夜,这是该范畴的一个庞大瓶颈,以和下流处置惩罚(例如从发酵液中体系提取所孕育发生的份子)。
试验主动化。于帮忙主动化试验室事情及保举试验设计方面,人工智能的影响已经经远远凌驾了DBTL周期的“进修”阶段。主动化正逐渐于实践中变患上十分主要,由于主动化是得到练习人工智能算法所需的高质量、年夜容量、低误差数据的最靠得住的方式,主动化还有使患上可猜测的生物工程成为可能。主动化提供了将繁杂和谈快速转移及扩大到其他试验室的时机。例如,液体处置惩罚呆板人站组成了生物锻造厂及云试验室的支柱。这些锻造厂已经经可以或许看到于将来自身会被呆板人及计划算法倾覆,从而得到快速迭代经由过程DBTL周期的能力。语义收集、本体及模式完全转变了设计及和谈的暗示、通讯及互换。这些东西撑持快速试验,并以布局化、可查询的格局天生更多的数据。于一个年夜大都内容要末丢掉,要末被人工记载于试验室条记中的范畴,人工智能的远景鞭策范畴发生庞大变化,从而削减天生数据的障碍。
微流体是宏不雅液体处置惩罚的替换品,具备更高的通量、更少的试剂耗损及更自制的结垢。事实上,微流体多是实现主动驾驶试验室的要害技能,它有望经由过程利用人工智能加强主动化试验平台,年夜年夜加速研发历程。主动驾驶试验室触及彻底主动化的DBTL周期,此中人工智能算法会按照以前的试验成果举行假定,踊跃寻觅有远景的试验步伐。是以这多是合成生物范畴人工智能研究职员的最年夜时机。虽然主动DBTL回路已经经于液体处置惩罚呆板人事情站中获得了证实,但微流控芯片提供的可扩大性、高通量能力及制造矫捷性可能会提供终极的技能奔腾,令人工智能成为实际。
3用AI研究合成生物学所面对的挑战人工智能已经经最先进入各类合成生物运用范畴,但仍旧存于的技能及社会问题成了这两个范畴之间的障碍。
技能挑战。将人工智能运用在合成生物学的技能挑战是:数据分离于差别的模式中,难以组合,非布局化,往往缺少网络数据的配景;模子需要的数据比凡是于单个试验中网络的数据多患上多,并且缺少可注释性及不确定性量化;而且于更年夜的设计使命中,没有器量尺度或者尺度来有用地评估模子的机能。此外,试验往往设计为只摸索踊跃的成果,这使患上模子的评估变患上繁杂化或者偏倚。

图注:将人工智能技能运用在合成生物学范畴的挑战。
数据挑战。缺少适合的数据集仍旧是人工智能与合成生物学联合的首要障碍。将人工智能运用在合成生物学需要从个别试验中得到年夜量标志过的、精选的、高质量、情境富厚的数据。只管该社区于成立包罗各类生物序列(甚至全基因组)及表型的数据库方面取患了进展,但标志数据仍旧很匮乏。此地方说的“标志数据”指的是映照到捕获它们的生物功效或者细胞反映的丈量的表型数据。恰是这类丈量及标签的存于让AI/ML及合成生物学解决方案日益成熟,及其他范畴同样让AI与人类的能力彼此竞争。
缺少对于数据工程的投资是缺少合用数据集的部门缘故原由。于人工智能技能前进的光线袒护下,人们往往看不到撑持及确保其乐成的计较基础举措措施需求。AI社区将其称为需求金字塔,数据工程是此中一个主要的构成部门。数据工程中包括了试验计划、数据网络、布局化、拜候及摸索的步调。乐成的AI运用步伐故事包罗尺度化、一致及可复制的数据工程步调。虽然咱们此刻可以之前所未有的范围及细节网络生物数据,但这些数据往往不克不及当即合用在呆板进修。今朝于采用全社区尺度来存储及同享丈量数据、试验前提及使患上数据更听从在AI技能的其他元数据方面仍存于很多障碍。需要举行严酷的事情及告竣高度共鸣才能使这些尺度迅速被采用,同时促成数据质量评估的通用尺度。简而言之,人工智能模子需要于所有试验中举行一致及可比的丈量,这就会延伸试验时间线。这一要求为已经经遵照繁杂和谈举行科研试验职员又增长了巨年夜的承担。是以,为了赶接于眼前的项目刻日,网络数据的持久需要往往会被捐躯失。

图注:一个规范的AI/ML基础举措措施可以撑持合成生物学研究。虽然研究中期往往是人们存眷的核心,但基础才是至关主要的,需要年夜量的资源投资。
这类环境凡是会造成稀少的数据调集,稀少的数据调集只暗示组成组学数据栈的多个层的一小部门。于这类环境下,数据暗示对于集成这些伶仃数据集举行综合建模的能力有庞大影响。今朝,业界于各个垂直范畴都投入了年夜量事情,履行数据清算、模式对于齐以和提取、转换及加载操作(ETL),用这类方式网络难以节制的数字数据,并将其预备为合适阐发的情势。这些使命盘踞了数据科学家近50%到80%的时间,限定了他们深切摸索的能力。处置惩罚年夜量的数据类型(数据多模态)是合成生物学研究职员面对的一个挑战,与数据量比拟,预处置惩罚勾当的繁杂性跟着数据多样性的增长而急剧增长。
建模/算法的挑战。很多鞭策当前人工智能前进的风行算法(例如计较机视觉及NLP范畴的风行算法)于阐发组学数据时都没有鲁棒性。当运用在特定试验中网络的数据时,这些模子的传统运用经常遭遇“维数灾害”的困扰。于特定前提下,一个试验职员可以就一个生物体孕育发生跨越12,000个丈量值(维度)的基因组学、转录组学及卵白质组学数据。对于在如许一个试验,标志实例的数目(例如,乐成或者掉败)凡是至多只有几十到几百个。对于在这些高维数据类型,很少捕获到体系的动态(时间分辩率)。这些丈量偏差使患上对于繁杂的动态体系举行揣度成为一个庞大挑战。

图注:维数灾害
组学数据与其他数据模式(如挨次数据、文本数据及基在收集的数据)既有相似的地方,也有差别的地方,而经典要领其实不老是合用。这些数据不异的特性包括位置编码及依靠瓜葛,以和繁杂的交互模式。然而这些数据之间也有一些基本的差异,如:它们的潜于表征,成心义阐发所需的配景,以和跨模态的相干尺度化以举行生物学上成心义的比力。是以,很难找到有鲁棒性的天生模子(近似在高斯模子或者随机块模子)可以正确地描写组学数据。
此外,生物序列及体系代表了繁杂的生物功效编码,但很少有体系的要领以近似注释语义或者从书面文本上下文的方式来注释这些编码。这些差别的特性使患上经由过程数据摸索提取看法、天生及验证假定具有挑战性。工程生物学触及到进修黑盒体系的挑战,咱们可以不雅察输入及输出,但咱们对于体系内部事情的相识有限。思量到这些生物体系运行于组合的年夜参数空间中,人工智能解决方案利用计谋有用地设计试验以摸索生物体系,从而孕育发生各类假定并举行验证,等在是于这个空间中提出了巨年夜的需乞降时机 。
末了,很多风行的AI算法解决方案没有明确地思量不确定性,也没有显示出于输入扰动下节制偏差的鲁棒机制。思量到咱们正于测验考试设计的生物体系中固有的随机性及噪声,这类基本差距于合成生物空间中特别主要。
指标/评估的挑战。基在猜测及正确性的尺度AI评价指标不足以运用于合成生物学范畴中。像ℝ如许的回归模子或者基在分类模子的正确性的器量尺度不克不及注释咱们试图建模的潜于生物体系的繁杂性。于这个范畴中,量化一个模子可以或许阐明生物体系内部事情及获取现有范畴常识的其他指标也一样主要。为此,包罗可注释性及透明度原则的人工智能解决方案是撑持迭代及跨学科研究的要害。此外,对于在得当地量化不确定性的能力,咱们需要创造性地开发新的指标来权衡这些要领的有用性。
咱们还有需要适量的试验设计指标。评估及验证合成生物学中的模子有时需要分外的试验及分外的资源。极少量的分类过错或者小过错可能会对于研究方针孕育发生庞大影响。这些成本应整合到人工智能模子的方针函数或者评估中,以反应误分类对于实际世界的影响。
社会学的挑战。于使用人工智能与合成生物学联合的方面,社会学方面的问题可能比技能障碍更具挑战性(反之亦有可能)。咱们的印象是,研究傍边所触及的彻底差别的文化之间缺少协和谐理解,是以会致使一些社会学方面的障碍。虽然已经经已经经有些措施能解决这类障碍,但有趣的是,学术界及工业界仍旧存于一些空费时日的社会学问题。
之以是会呈现社会问题,是由于两个很是差别群体的专家:计较科学家及试验室科学家于事情中碰撞磨擦,孕育发生了必然的不合。
计较科学家及试验室科学家接管的练习差别的地方太多。颠末练习的计较科学家偏向在专注在抽象、热中在主动化、计较效率及倾覆性要领。他们天然偏向在使命专门化,并千方百计将反复性使命丢给主动化计较机体系去做。而试验室科学家都很现实,他们接管过详细不雅察的练习,更喜欢经由过程可注释的阐发来正确描写试验的详细成果。

图注:计较科学家及试验室科学家来自差别的研究文化配景,他们必需学会配合协作,才能从人工智能及合成生物联合中充实受益。
这两个世界有着差别的文化,这不仅反应于这两部门人怎样解决问题,也反应于他们认为哪些问题值患上解决。
例如,致力在设置装备摆设撑持通用研究的基础举措措施,与致力在研究特定研究问题的努力之间一直很紧张。计较科学家偏向在提供可用在各类项目的靠得住基础举措措施,而试验科学家往往专注在终极方针。计较科学家喜欢开发数学模子来注释及猜测生物体系的举动,而试验室科学家喜欢孕育发生定性的假定,并尽快经由过程试验来查验这些假定(至少于研究微生物时,由于这些试验可以于3-5天内很快完成)。
此外,计较机科学家们往往只对于一些虚高的方针感应高兴,好比生物工程生物对于火星、糊口写编译器可以或许创立DNA来满意所需的规范,重修树采纳所需的外形,生物工程龙于实际糊口中,或者者用人工智能代替科学家。试验室的科学家们则认为这类方针纯属“炒作”,由于以前的案例中,计较类型承诺了很多,却没有兑现,他们甘愿只思量利用当前的技能状况可以实现的方针。
解决社会的挑战。解决这些社会学问题的要领是去鼓动勉励跨学科的团队及需求。虽然咱们不克不及否定,于公司(团队一荣俱荣一损俱损)中实现这类包涵的情况可能比于学术情况中更易,由于于学术情况中一个研究生或者博士后往往是发表了几篇第一作者论文就传播鼓吹乐成了,而不需要与其他学科举行整合。
实现这类整合的一种可能的方式是创办交织培训课程,让试验室科学家接管编程及呆板进修的培训,让计较科学家接管试验培训。如许就能给两个社区都带来一些有价值的、怪异的、须要的文化交流。各人越早发明这一点,合成生物学就能成长患上越快。
从久远来看,咱们需要将生物及生物工程的讲授与主动化及数学相联合的年夜学课程。虽然今朝有一些黉舍正于创办如许的课程,但今朝只是人浮于事罢了。
4不雅点及时机人工智能可以从底子上加强合成生物学,还有能经由过程为工程阶段空间增长第三个轴,好比物理、化学或者者生物,从而使其充实阐扬影响力。最较着的是,人工智能可以于生物工程成果中孕育发生正确的猜测,从而实现有用的逆向设计。
此外,人工智能还有可以撑持科学家设计试验,并选择什么时候何地采样,而今朝这一问题需要练习有素的专家来解决。人工智能还有可以撑持主动搜刮、高吞吐量阐发及基在年夜数据源的假定天生,这些数据源包括汗青试验数据、于线数据库、本体及其他技能质料。
人工智能可以答应合成生物学范畴专家更快地摸索年夜型设计空间,并提出一些有趣的“跳出框框”的假定,从而增长专家们的常识。合成生物学为当前的人工智能解决方案提出了一些怪异的挑战,假如这些挑战获得解决,将使患上合成生物学及人工智能范畴获得底子性前进。设计生物体系素质上依靠在节制体系的能力,这是对于体系基本纪律理解的最终磨练。是以,可以或许实现合成生物研究的人工智能解决方案必需可以或许描写可以或许做到最好猜测的机制。
只管近来基在深度进修架构的人工智能技能已经经转变了咱们对于特性工程及模式发明的见解,但就推理及注释其进修机制的能力而言,它们仍处在起步阶段。
是以,联合因果推理、可注释性、鲁棒性及不确定性预计需求的人工智能解决方案于这一跨学科范畴具备巨年夜的潜于影响。生物体系的繁杂性使患上纯粹基在蛮力联系关系发明的人工智能解决方案没法有用地描写体系的内涵特性。将物理及机械模子与数据驱动模子顺遂地联合起来的一类新算法是一个使人高兴的新研究标的目的。今朝咱们于天气科学及计较化学方面看到了一些开端的踊跃结果,但愿于生物体系研究方面也能取患上近似的进展。
因为人工智能提供了修改生物体系的东西,合成生物学还有可以反过来引发新的人工智能要领。生物学开导了诸如神经收集、遗传算法、强化进修、计较机视觉及群体呆板人等人工智能的基本要素。事实上,有很多生物征象可以用也值患上用数字技能来模仿的。例如,基因调控触及到一个精良的彼此作用收集,它不仅答应细胞感知情况并对于情况作出反映,并且还有连结细胞的存活及不变。连结体内均衡(由生命体系维持的不变的内部、物理及化学前提的状况)触及到于适量的时间、适量的数目孕育发生适量的细胞身分,感知内部梯度,并小心肠调治细胞与情况的互换。咱们能不克不及理解并使用这类能力来出产真正自我调治的人工智能或者呆板人呢?
另外一个例子触及紧迫属性(即,由体系显示但不禁其构成部门显示的属性)。例如,蚁群的举动及反映是一个单一的有机体,不单单是单个蚂蚁的总及。近似地,意识(即,对于内部或者外部存于的感知或者意识)是一种来自物理基础(好比神经元)的定性特性。自构造及团体制作布局的群呆板人已经经存于。咱们能不克不及用涌现的一般理论来创造呆板人及生物体系的混淆体呢?咱们能从一个彻底差别的物理基质,好比晶体管中创造意识吗?末了一个可能的例子触及自我修复及复制:纵然是最简朴的生命例子也显示出自我修复及复制的能力。咱们能理解这类征象孕育发生自我修复及复制的人工智能的困境吗?
虽然这类生物模仿之前就有人思量过,但“合成生物”的美妙的地方于在,它为咱们提供了“修补”生物体系的能力,以测试生物模仿的模子及基来源根基理。例如,咱们此刻可以于基因组范围上修补细胞基因调控,对于其举行修改,并测试究竟是甚么致使了其特殊的韧性及顺应性。或者者咱们可以对于蚂蚁举行生物工程,测试随后会发生甚么样的蚁群举动,以和这类举动怎样影响蚂蚁的存活率。或者者咱们可以转变细胞的自我修复及自我复制机制,测试持久进化对于其竞争能力的影响。
此外,于细胞建模中,咱们可以或许很好地舆解所触及的生物机制。就算相识了神经收集怎样检测眼睛的外形,也不太可能就大白年夜脑是怎么做一样的工作的,但合成生物学的研究纷歧样。机械模子的猜测其实不完善,但孕育发生了质量上可以接管的成果。将这些机制模子与ML的猜测能力相联合,可以帮忙弥合二者之间的差距,并提供生物学上的看法,注释为何某些ML模子于猜测生物举动方面比其他模子更有用。这类看法可以指导咱们研究新的ML系统布局及要领。
人工智能可以帮忙合成生物,合成生物也能够反过来帮忙人工智能,这两个学科于连续反馈轮回中的彼此作用,将创造咱们此刻不克不及想象的将来,就像本杰明·富兰克林也没法想象他对于电的发明,于将来有一天会使互联网成为可能。
原文链接:
https://cacm.acm.org/magazines/2022/5/260341-artificial-intelligence-for-synthetic-biology/fulltext#R2

雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





