米兰·(milan)中国官方网站-MIT 最新研究:AlphaFold 蛋白质预测能力太差,目前利用价值还很低
作者 | 李梅、黄楠
编纂 | 陈彩娴
2018 年,Deepmind 初次发布基在深度神经收集的卵白质布局猜测数据库 AlphaFold,于卵白质猜测中实现了开始进的机能;去年,AlphaFold 2 得到了 98.5% 的卵白质猜测率;前段时间,Deepmind 又重磅发布了数据集更新,称今朝的 AlphaFold 已经经猜测了险些所有已经知的卵白质。
怎样有用辨认药物作用机制于今天仍旧是一个巨年夜挑战,计较对于接的要领已经被广泛用在猜测药物联合靶点。有了年夜范围卵白质布局猜测技能,药物发明将变患上更易。以是,自 AlphaFold 问世以来,称其将激发一场布局生物学的革命、完全转变药物发明的声音就不绝在耳。
素质上,AlphaFold 是一个东西,咱们今朝真的能使用好这个东西吗?
近日,来自 MIT 的研究团队给出了否认的回覆。
他们对于利用 AlphaFold2 的份子对于接模仿的模子机能举行了评估,发明模子于辨认真实的卵白质-配体彼此作用方面的猜测能力较弱,并证实需要利用基在呆板进修的要领举行建模来提高模子机能,以更好地使用AlphaFold2 举行药物发明。该论文“Benchmarking AlphaFold-enabled molecular docking predictions for antibiotic discovery”发表于了Molecular Systems Biology 期刊上。
论文地址:https://www.embopress.org/doi/epdf/10.15252/msb.2022110811利用 AlphaFold 2
猜测的份子对于接所谓化合物的对于接计较,是将候选化合物列表中的每个对于接到方针卵白质中,天生最有可能联合的化合物的大略排序。这个历程可以于化合物调集上完成,得到重大的虚拟库,这类虚拟筛选已经经成为计较化学范畴的持久方针。
筛选 218 种年夜肠杆菌活性化合物
研究团队起首筛选了一组化合物,包罗约莫 39128 种,此中包括已经知药物(已经知抗生素)、活性自然产品及一系列其他差别布局,并于针对于年夜肠杆菌的筛选中发明了 218 种化合物造就物。
仅仅有 218 个阳性,这个成果是使人惊奇的,但思量到抗菌药物发明事情的难度,这个数字也算比力可贵了。
于 218 种活性化合物中,有约莫 80% 是已经知抗生素种别中的成员,剩下的部门则是已经知细胞毒性化合物及一些新的通配类型的混淆。这为试验的举行提供了一个很好的配景,由于于年夜大都环境下,咱们可以猜测从反向对于接筛选中得到甚么成果。
将活性化合物与猜测的卵白质布局对于接
接着,团队研究了这些活性化合物的潜于联合靶标。多年来,于年夜肠杆菌中举行的年夜量基因组敲除了扫描的共鸣评分已经经患上出了 296 项基本卵白质,以是,可以合理揣度所有真正按捺生长的靶标卵白质均可能于这些列表傍边。
作者将 218 种活性化合物中与 AlphaFold 2 猜测出的 296 种基本年夜肠杆菌卵白质布局举行对于接,并经由过程几种差别的计较要领,对于 218 种化合物与 296 种卵白质的组合举行计较,猜测了 64000 多个卵白质-配体对于的联合位姿与联合亲及力猜测。

图注:于 AlphaFold 布局长进行份子对于接
从计较量来看,这是一个靠得住度相称高的测试,特别是思量到内部节制的数目(具备已经知靶标的化合物及于这些靶标内具备已经知联合构象的化合物),这项计较是颇有价值的。
作为比照,研究团队还有从一组化合物中,随机选择了 100 种对于细菌生长彻底没有按捺作用的化合物举行不异的计较,从而得到对于 29600 个卵白质-配体对于的联合位姿与亲及力猜测。
2基在 AlphaFold 2
猜测布局的模子机能很弱虽然这项事情猜测了包括活性及非活性化合物的化合物与卵白质稠浊性,但问题是,这些猜测中有几多是假阳性?
将模子猜测与已经知的抗生素联合方针举行比力
为了评估所用模子要领的机能,作者将模子猜测与经常使用抗生素种别的已经知彼此作用举行比力。
作者汇集了先前文献中的抗生素-卵白质靶对于,构成一个包罗 142 种抗生素-卵白质彼此作用的数据集。成果发明,他们的模子仅仅准确猜测了 3 种具备强联合性(即联合亲及力阈值为 -7 kcal/mol )的彼此作用,以和 43 种具备一般联合性(即联合亲及力阈值为 -5 kcal/mol )的彼此作用。以是,模子猜测的真阳性率别离为 2.1% 及 30.3%。
这类比力注解,基在 AlphaFold 2 猜测布局的建模平台机能很弱。
丈量 12 种基本卵白质的酶按捺
作者接着拔取了 12 种基本卵白质,它们可以用在酶促测定,经由过程丈量 218 种活性化合物对于这些卵白质的酶按捺,作者对于模子猜测的子集举行进一步的评估。

图注:所有 218 种活性化合物的平均相对于活性,12 种卵白质都颠末按捺试验测试。联合彼此作用掷中是卵白质-配体彼此作用(红点),所有其他交互都被指定为横死中(灰点)。
成果注解,所有测试中的基本卵白质都被至少四种差别的化合物所按捺,涵盖从强到弱的一系列联合亲及力阈值,基在 AlphaFold 2 的模子所猜测的对于接显示出了广泛的稠浊性。
模子的基准测试
末了,作者对于建模平台的机能举行了统计基准测试。基在酶按捺丈量数据,作者将试验不雅察到的联合彼此作用掷中与他们猜测的彼此作用举行比力,联合亲及力阈值设定为小在 -5 kcal/mol 及 -7 kcal/mol。
成果发明,更强联合性的亲及力阈值会致使更少的联合彼此作用猜测,此时真阳性率更低,正确性更高。模子机能按照所设定的联合亲及力阈值从弱到中等变化。
作者又于自力在联合亲及力阈值的前提下,利用接管者操作特性曲线 (ROC) 及切确召回曲线 (PR) 再次举行评估,也都注解模子机能较弱。
总之,模子的猜测成果中不仅存于年夜量假阳性(即非活性化合物被猜测为与要害细菌卵白质的活性位点联合),并且还有有年夜量的假阴性(即已经知存于彼此作用,但没有被发明)。只有到达最严酷的联合亲及力阈值时,模子才会比随机猜测体现患上略好一些。
3AlphaFold 自己没错
用好呆板进修要领是要害接下来的问题是,模子的弱机能是由 AlphaFold2 所提供的卵白质布局质量致使的吗?
问题出自对于接要领而非卵白质布局质量
为了验证这个问题,作者将 218 种活性化合物与八种试验确定的卵白质布局中的每一一种对于接举行了反复的对于接模仿,并一样对于模子机能举行了基准测试,成果是 auROC 值于数目上与先前相似,规模从 0.25 ( glmU ) 到 0.69 ( gyrAB ),平均值为 0.46。auPRC 值也发明了近似的成果,规模从 0.03 ( ligA ) 到 0.56 ( gyrAB ),平均值为 0.22。
这些发明注解,利用 AlphaFold2 猜测布局的份子对于接与利用试验确定的布局是近似的。这也与以前对于 AlphaFold 对于试验确定的卵白质布局的保真度评估一致,由此可以患上出,模子的机能弱是由于对于接要领的缘故原由,而不是卵白质布局的质量差。
利用呆板进修要领可改良模子机能
基在份子对于接的弱机能问题,研究团队摸索了可以提高机能的要领。
研究中利用了四种差别的基在呆板进修的评分函数,别离是 RF-Score 、RF-Score-VS、PLEC score 及 NNScore,以对于模子机能举行基准测试及改良。
比拟在 RF-Score 及 RF-Score-VS - RF-Score 的虚拟筛选顺应性--使用随机丛林或者决议计划树的组合来猜测卵白质与配体的联合亲及力,PLEC score 采用了卵白质-配体对于之间的扩大毗连指纹,NNScore 是基在神经收集的调集。
作者于研究中采用了评分函数,利用 PDBbind v2016 或者有效的钓饵目次对于加强(DUD-E)数据库举行练习,以从头评估 AutoDock Vina 猜测的对于接姿式。
此外,研究利用 DOCK6.9 及运用在 AutoDock Vina 姿式的每一个基在呆板进修的评分函数,还有猜测了每一种抗菌化合物与 12 种经验测试必须卵白中每一一种之间的联合亲及力,并对于每一种要领的机能举行基准测试。测试成果发明,平均 auROC 值于 0.46 及 0.63 之间(下图 A)。
此中,与 DOCK6.9 对于接并利用 PLEC score 对于 AutoDock Vina 姿式举行从头评分平均,致使 auROC 值低在零丁利用 AutoDock Vina 的成果,DOCK6.9 的 auROC 值为为 0.46(规模为 0.25 至 0.61)及 0.47(规模 PLEC score 为 0.28 至 0.63)(下图 A)
比拟之下,利用 RF-Score、RF-Score-VS 或者 NNScore 对于 AutoDock Vina 姿式举行从头评分可提高模子机能,平均 auROC 值别离为 0.62(规模为 0.53 至 0.69)、0.63(规模为 0.46 至 0.75)及 0.58(规模为 0.41 到 0.69)。研究成果也与 auPRC 相似,当利用 RF-Score 从头评分时,其平均值高达 0.24。
这些模子机能评估注解,某些基在呆板进修的评分函数提高了猜测正确性。

图注:利用呆板进修对于模子机能举行基准测试及改良。A. 于差别的份子对于接步伐及差别的基在呆板进修的姿式评分函数。白点暗示平均值;灰色条表第25-75个百分位值的规模;灰色箱线图须线暗示不被视为异样值的值规模;0.5 处的程度线暗示随机猜测天生的基准。B. 经由过程于 AutoDock Vina 运用基在呆板进修的从头评分函数建模的卵白质-配体对于的排序联合亲及力 。曲线按照 (A) 中利用的从头评分函数着色;暗影区域暗示 7 的联合亲及力阈值。C-E. 猜测正确性、猜测阳性数(卵白质-配体彼此作用)及真阳性率/假阳性率对于所用模子数目的依靠性。
群体聪明要领可提高猜测正确性
因为某些基在呆板进修的评分函数会增长 auROC 及 auPRC,研究还有切磋了于严酷限定联合亲及力阈值的环境下,联合“群体聪明”要领利用从头评分模子,是否可以提高猜测正确性及真阳性率。
作者将猜测的卵白质-配体彼此作用,界说为满意所有模子的联合亲及力阈值,并将 AutoDock Vina 猜测与上述四种基在呆板进修的评分函数的猜测相联合;研究经由过程利用这类共鸣要领发明,猜测正确性可跟着利用的模子数目而提高(上图 C),这同猜测的卵白质-配体彼此作用数目的响应削减预期一致(上图 D)。
与此同时,真阳性率与假阳性率的比率则是随利用模子数目的增长而增长,于预期以外(上图 E)。
可以看到,该成果同利用某些基在呆板进修的评分函数提高猜测能力的发明一致,这也进一步注解了,将份子对于接与基在呆板进修的模子联合起来,可让人们更好地使用 AlphaFold2 猜测的卵白质布局举行药物筛选。
以是,一些呆板进修要领确凿可以提高了猜测的正确性。不外,这只是部门的乐成,当前研究所用的数据集中有许多已经经确定的卵白质及化合物的试验事实,假如触及那些较少被存眷的范畴,这些要领是否仍旧见效就不成知了。
虽然 AlphaFold 为咱们提供了年夜量且合理的卵白质布局,但咱们实现它的价值的能力还有很是有限。以是至少于今朝看来,“AlphaFold 将完全转变药物发明”的说法还有尚待证明,乐成还有于将来。
参考链接:
https://www.science.org/content/blog-post/not-alphafold-s-fault更多内容,点击下方存眷:扫码添加 AI 科技评论 微旌旗灯号,投稿 进群:
雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





