生物學(xué)界最大的謎團(tuán)之一被 AI 破解

人工智能
2020
12/01
17:24
機(jī)器之心
分享
評(píng)論

來(lái)源:機(jī)器之心

生物學(xué)界最大的謎團(tuán)之一,蛋白質(zhì)折疊問(wèn)題被 AI 破解了。

CASP14 組織者、年近七旬的 UC Davis 科學(xué)家 Andriy Kryshtafovych 在大會(huì)上感嘆道,I wasn't sure that I would live long enough to see this(我活久見(jiàn)了) [ 1 ] 。

11 月 30 日,一條重磅消息引發(fā)了科技界所有人的關(guān)注:谷歌旗下人工智能技術(shù)公司 DeepMind 提出的深度學(xué)習(xí)算法「Alphafold」破解了出現(xiàn)五十年之久的蛋白質(zhì)分子折疊問(wèn)題。

最新一代算法 Alphafold 2,現(xiàn)在已經(jīng)擁有了預(yù)測(cè)蛋白質(zhì) 3D 折疊形狀的能力,這一復(fù)雜的過(guò)程對(duì)于人們理解生命形成的機(jī)制至關(guān)重要。

DeepMind 重大科研突破的消息一出即被《Nature》、《Science》等科學(xué)雜志爭(zhēng)相報(bào)道,新成果也立刻獲得了桑達(dá)爾 · 皮查伊、伊隆 · 馬斯克等人的祝賀。

科學(xué)家們表示,Alphafold 的突破性研究成果將幫助科研人員弄清引發(fā)某些疾病的機(jī)制,并為設(shè)計(jì)藥物、農(nóng)作物增產(chǎn),以及可降解塑料的「超級(jí)酶」研發(fā)鋪平道路。

「這是該研究領(lǐng)域激動(dòng)人心的一刻,」DeepMind 創(chuàng)始人、首席執(zhí)行官德米斯 · 哈薩比斯說(shuō)道。「這些算法今天已經(jīng)足夠成熟強(qiáng)大,足以被應(yīng)用于真正具有挑戰(zhàn)性的科學(xué)問(wèn)題上了。」

蛋白質(zhì)對(duì)于生命至關(guān)重要,它們是由氨基酸鏈組成的大型復(fù)雜分子,其作用取決于自身獨(dú)特的 3D 結(jié)構(gòu)。弄清蛋白質(zhì)折疊成何種形狀被稱為「蛋白質(zhì)折疊問(wèn)題」。在過(guò)去 50 年里,蛋白質(zhì)折疊一直是生物學(xué)領(lǐng)域的重大挑戰(zhàn)。

DeepMind 的 AlphaFold 讓人類在這一問(wèn)題上取得了重要突破。在今年的國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽 CASP 中,DeepMind 開(kāi)發(fā)的 AlphaFold 最新版本擊敗了其他選手,在準(zhǔn)確性方面比肩人類實(shí)驗(yàn)結(jié)果,被認(rèn)為是蛋白質(zhì)折疊問(wèn)題的解決方案。這一突破證明了 AI 對(duì)于科學(xué)發(fā)現(xiàn),尤其是基礎(chǔ)科學(xué)研究的影響。

在兩年一次的 CASP 競(jìng)賽中,各組爭(zhēng)先預(yù)測(cè)蛋白質(zhì)的 3D 結(jié)構(gòu)。今年,AlphaFold 擊敗了所有其他小組,并在準(zhǔn)確性方面與實(shí)驗(yàn)結(jié)果相匹配。

對(duì)于不熟悉生物領(lǐng)域的人來(lái)說(shuō),CASP 的大名可能有些陌生—— CASP 全稱 The Critical Assessment of protein Structure Prediction,旨在對(duì)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)進(jìn)行評(píng)估,被譽(yù)為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的奧林匹克競(jìng)賽。CASP 從 1994 年開(kāi)始舉辦,每?jī)赡暌粚茫壳罢谶M(jìn)行的一屆是 11 月 30 日開(kāi)始的 CASP14。

而 DeepMind 這一突破有什么影響?

用哥倫比亞大學(xué)計(jì)算生物學(xué)家 Mohammed AlQuraishi 在 Nature 文章中的話來(lái)說(shuō),「可以說(shuō)這將對(duì)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域造成極大影響。我懷疑許多人會(huì)離開(kāi)該領(lǐng)域,因?yàn)楹诵膯?wèn)題已經(jīng)解決。這是一流的科學(xué)突破,是我一生中最重要的科學(xué)成果之一。」

蛋白質(zhì)折疊問(wèn)題

蛋白質(zhì)的形狀與它的功能密切相關(guān),而預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)對(duì)于理解其功能和工作原理至關(guān)重要。很多困擾全人類的重大問(wèn)題(如尋找分解工業(yè)廢料的酶)基本上都與蛋白質(zhì)及其扮演的角色有關(guān)。

多年以來(lái),蛋白質(zhì)結(jié)構(gòu)一直是熱門的研究話題,研究者使用核磁共振、X 射線、冷凍電鏡等一系列實(shí)驗(yàn)技術(shù)來(lái)檢測(cè)和確定蛋白質(zhì)結(jié)構(gòu)。但這些方法往往依賴大量試錯(cuò)和昂貴的設(shè)備,每種結(jié)構(gòu)的研究都要花數(shù)年時(shí)間。

1972 年,美國(guó)科學(xué)家克 Christian Anfinsen 因「對(duì)核糖核酸酶的研究,特別是對(duì)其氨基酸序列與生物活性構(gòu)象之間聯(lián)系的研究」獲得諾貝爾化學(xué)獎(jiǎng)。在頒獎(jiǎng)禮上,他提出了一個(gè)著名的假設(shè):從理論上來(lái)說(shuō),蛋白質(zhì)的氨基酸序列應(yīng)該可以完全決定其結(jié)構(gòu)。這一假設(shè)引發(fā)了長(zhǎng)達(dá)五十年的探索,即僅僅基于蛋白質(zhì)的一維氨基酸序列計(jì)算出其三維結(jié)構(gòu)。

但這一思路的挑戰(zhàn)在于,在形成三維結(jié)構(gòu)之前,蛋白質(zhì)的理論折疊方式是一個(gè)天文數(shù)字。1969 年,Cyrus Levinthal 指出,如果使用蠻力計(jì)算的方式來(lái)枚舉一種蛋白質(zhì)可能存在的構(gòu)象,要花費(fèi)的時(shí)間甚至比宇宙的年齡還要長(zhǎng)。Levinthal 估計(jì),一種蛋白質(zhì)大約存在 10^300 種可能構(gòu)象。但在自然界中,蛋白質(zhì)會(huì)自發(fā)折疊,有些只需幾毫秒,這被稱為 Levinthal 悖論。

蛋白質(zhì)折疊問(wèn)題解讀視頻請(qǐng)戳:

CASP 14 比賽最新結(jié)果:AlphaFold 中位 GDT 高達(dá) 92.4

CASP 競(jìng)賽由 John Moult 和 Krzysztof Fidelis 兩位教授于 1994 年創(chuàng)立,每?jī)赡赀M(jìn)行一次盲審,以促進(jìn)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面的新 SOTA 研究。

一直以來(lái),CASP 選擇近期才經(jīng)過(guò)實(shí)驗(yàn)確定的蛋白質(zhì)結(jié)構(gòu),作為參賽團(tuán)隊(duì)測(cè)試其蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法的目標(biāo)(有些結(jié)構(gòu)即使在評(píng)估時(shí)仍然處于待確定狀態(tài))。這些蛋白質(zhì)結(jié)構(gòu)不會(huì)事先公布,參賽者也必須對(duì)其結(jié)構(gòu)進(jìn)行盲測(cè),最后將預(yù)測(cè)結(jié)果與實(shí)驗(yàn)數(shù)據(jù)進(jìn)行對(duì)比。正是基于這種嚴(yán)苛的評(píng)估原則,CASP 一直被稱為預(yù)測(cè)技術(shù)評(píng)估方面的「黃金標(biāo)準(zhǔn)」。

CASP 衡量預(yù)測(cè)準(zhǔn)確率的主要指標(biāo)是 GDT(Global Distance Test),范圍從 0 到 100,可以理解為預(yù)測(cè)的氨基酸殘基在正確位置閾值距離內(nèi)的百分比。John Moult 教授表示,GDT 分?jǐn)?shù)在 90 分左右,即可視為對(duì)人類實(shí)驗(yàn)方法具備競(jìng)爭(zhēng)力。

在剛剛公布的第 14 屆 CASP 評(píng)估結(jié)果中,DeepMind 的最新 AlphaFold 系統(tǒng)在所有預(yù)測(cè)目標(biāo)中的中位 GDT 達(dá)到 92.4,意味其平均誤差大概為 1.6 埃(Angstrom),相當(dāng)于一個(gè)原子的寬度(或 0.1 納米)。即使在難度最高的自由建模類別中,AlphaFold 的中位 GDT 也達(dá)到了 87.0。

歷屆 CASP 競(jìng)賽自由建模類別中預(yù)測(cè)準(zhǔn)確率中位數(shù)的提升情況,度量指標(biāo)為 BEST-OF-5 GDT。

CASP 競(jìng)賽自由建模類別中的兩個(gè)目標(biāo)蛋白質(zhì)示例。AlphaFold 能夠預(yù)測(cè)出高度準(zhǔn)確的蛋白質(zhì)結(jié)構(gòu)。

這些令人振奮的結(jié)果開(kāi)啟了生物學(xué)家使用計(jì)算結(jié)構(gòu)預(yù)測(cè)作為科研主要工具的時(shí)代。DeepMind 提出的方法對(duì)于某些重要的蛋白質(zhì)類別尤其有用,例如膜蛋白(membrane protein)。膜蛋白很難結(jié)晶,因此很難通過(guò)實(shí)驗(yàn)方法來(lái)確定其結(jié)構(gòu)。

該計(jì)算工作代表了在蛋白質(zhì)折疊這一具備 50 年歷史的生物學(xué)問(wèn)題上的驚人進(jìn)展,比該領(lǐng)域人士成功預(yù)測(cè)蛋白質(zhì)折疊結(jié)構(gòu)早了幾十年。我們將很興奮,它能從多個(gè)方面對(duì)生物學(xué)研究帶來(lái)基礎(chǔ)性改變。—— Venki Ramakrishnan 教授(諾貝爾獎(jiǎng)得主,英國(guó)皇家學(xué)會(huì)會(huì)長(zhǎng))

DeepMind 這樣解決蛋白質(zhì)折疊問(wèn)題

2018 年,DeepMind 團(tuán)隊(duì)使用初始版 AlphaFold 參加 CASP13 比賽,取得了最高的準(zhǔn)確率。之后,DeepMind 將 CASP13 方法和相關(guān)代碼一并發(fā)表在 Nature 上。而現(xiàn)在,DeepMind 團(tuán)隊(duì)開(kāi)發(fā)出新的深度學(xué)習(xí)架構(gòu),并使用該架構(gòu)參加 CASP14 比賽,達(dá)到了空前的準(zhǔn)確率水平。這些方法從生物學(xué)、物理學(xué)、機(jī)器學(xué)習(xí),以及過(guò)去半個(gè)世紀(jì)眾多科學(xué)家在蛋白質(zhì)折疊領(lǐng)域的工作中汲取靈感。

我們可以把蛋白質(zhì)折疊看作一個(gè)「空間圖」,節(jié)點(diǎn)表示殘基(residue),邊則將殘基緊密連接起來(lái)。這個(gè)空間圖對(duì)于理解蛋白質(zhì)內(nèi)部的物理交互及其演化史至關(guān)重要。對(duì)于在 CASP14 比賽中使用的最新版 AlphaFold,DeepMind 團(tuán)隊(duì)創(chuàng)建了一個(gè)基于注意力的神經(jīng)網(wǎng)絡(luò)系統(tǒng),并用端到端的方式進(jìn)行訓(xùn)練,以理解圖結(jié)構(gòu),同時(shí)基于其構(gòu)建的隱式圖執(zhí)行推理。該方法使用進(jìn)化相關(guān)序列、多序列比對(duì)(MSA)和氨基酸殘基對(duì)的表示來(lái)細(xì)化該圖

通過(guò)迭代這一過(guò)程,該系統(tǒng)能夠較強(qiáng)地預(yù)測(cè)蛋白質(zhì)的底層物理結(jié)構(gòu),并在幾天內(nèi)確定高度準(zhǔn)確的結(jié)構(gòu)。此外,AlphaFold 還能使用內(nèi)部置信度度量指標(biāo)判斷預(yù)測(cè)的每個(gè)蛋白質(zhì)結(jié)構(gòu)中哪一部分比較可靠。

DeepMind 團(tuán)隊(duì)在公開(kāi)數(shù)據(jù)上訓(xùn)練這一系統(tǒng),這些數(shù)據(jù)來(lái)自蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)(PDB)和包含未知結(jié)構(gòu)蛋白質(zhì)序列的大型數(shù)據(jù)庫(kù),共包括約 170,000 個(gè)蛋白質(zhì)結(jié)構(gòu)。該系統(tǒng)使用約 128 個(gè) TPUv3 內(nèi)核(相當(dāng)于 100-200 個(gè) GPU)運(yùn)行數(shù)周,與現(xiàn)今機(jī)器學(xué)習(xí)領(lǐng)域出現(xiàn)的大型 SOTA 模型相比,該系統(tǒng)所用算力相對(duì)較少。

此外,DeepMind 團(tuán)隊(duì)透露,他們準(zhǔn)備在適當(dāng)?shù)臅r(shí)候?qū)⑦@一 AlphaFold 新系統(tǒng)相關(guān)論文提交至同行評(píng)審期刊。

AlphaFold 主要神經(jīng)網(wǎng)絡(luò)模型架構(gòu)概覽。該模型基于進(jìn)化相關(guān)的蛋白質(zhì)序列和氨基酸殘基對(duì)運(yùn)行,迭代地在二者的表示之間傳遞信息,從而生成蛋白質(zhì)結(jié)構(gòu)。

對(duì)現(xiàn)實(shí)世界的潛在影響

「讓 AI 突破幫助人們進(jìn)一步理解基礎(chǔ)科學(xué)問(wèn)題」,經(jīng)過(guò) 4 年的研究攻關(guān),現(xiàn)在 AlphaFold 正在逐步實(shí)現(xiàn) DeepMind 初創(chuàng)時(shí)的愿景,在藥物設(shè)計(jì)和環(huán)境可持續(xù)性等領(lǐng)域都產(chǎn)生了重要的影響。

馬克斯 · 普朗克演化生物學(xué)研究所所長(zhǎng),CASP 評(píng)估員 Andrei Lupas 教授表示:「AlphaFold 的精確模型讓我們解決了近十年來(lái)被困擾的蛋白質(zhì)結(jié)構(gòu),重新啟動(dòng)關(guān)于信號(hào)如何跨細(xì)胞膜傳輸?shù)难芯俊!?/p>

DeepMind 表示愿與其他研究者合作,以進(jìn)一步了解 AlphaFold 在未來(lái)幾年的潛力。除了作用于經(jīng)過(guò)同行評(píng)審的論文以外,DeepMind 還在探索如何以最佳的可擴(kuò)展方式為系統(tǒng)提供更廣泛的訪問(wèn)可能。

同時(shí),DeepMind 的研究者還研究了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)如何幫助人們理解一些特殊的疾病。例如,通過(guò)幫助識(shí)別存在故障的蛋白質(zhì),并推斷其相互作用的方式,來(lái)理解一些疾病的原理。這些信息能夠讓藥物開(kāi)發(fā)更加精確,從而補(bǔ)充現(xiàn)有的實(shí)驗(yàn)方法,并更快找到更有希望的治療方法。

AlphaFold 是十分卓越的,它在預(yù)測(cè)結(jié)構(gòu)蛋白質(zhì)的速度和精度上有著驚人的表現(xiàn)。這一飛躍證明了計(jì)算方法對(duì)于生物學(xué)中的轉(zhuǎn)換研究,加速藥物研發(fā)過(guò)程都具有廣闊的前景。

同時(shí)許多證據(jù)也表明,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)在未來(lái)的大流行應(yīng)對(duì)上是有用的。今年早些時(shí)候,DeepMind 使用 AlphaFold 預(yù)測(cè)了包括 ORF3a 在內(nèi)的幾種未知新冠病毒蛋白質(zhì)結(jié)構(gòu)。在 CASP14 中,AlphaFold 預(yù)測(cè)了另一種冠狀病毒蛋白質(zhì) ORF8 的結(jié)構(gòu)。目前,實(shí)驗(yàn)人員已經(jīng)證實(shí)了 ORF3a 和 ORF8 的結(jié)構(gòu)。盡管具有挑戰(zhàn)性,并且相關(guān)序列很少,但與實(shí)驗(yàn)確定的結(jié)構(gòu)相比,AlphaFold 在兩種預(yù)測(cè)上都獲得了較高的準(zhǔn)確率。

除了加速對(duì)已知疾病的了解,AlphaFold 還具備很多令人興奮的技術(shù)潛力:探索數(shù)億個(gè)目前還沒(méi)有模型的數(shù)億蛋白質(zhì),以及未知生物的廣闊領(lǐng)域。由于 DNA 指定了構(gòu)成蛋白質(zhì)結(jié)構(gòu)的氨基酸序列,基因組學(xué)革命使大規(guī)模閱讀自然界的蛋白質(zhì)序列成為可能——在通用蛋白質(zhì)數(shù)據(jù)庫(kù)(UniProt)中有 1.8 億個(gè)蛋白質(zhì)序列。相比之下,考慮到從序列到結(jié)構(gòu)所需的實(shí)驗(yàn)工作,蛋白質(zhì)數(shù)據(jù)庫(kù)(PDB)中只有大約 170000 個(gè)蛋白質(zhì)結(jié)構(gòu)。在未確定的蛋白質(zhì)中可能有一些新的和未確定的功能——就像望遠(yuǎn)鏡幫助人類更深入的觀察未知宇宙一樣,像 AlphaFold 這樣的技術(shù)可以幫助找到未確定的蛋白質(zhì)結(jié)構(gòu)。

開(kāi)創(chuàng)新的可能

AlphaFold 是 DeepMind 迄今為止取得的最重要進(jìn)展之一,但隨著后續(xù)科學(xué)研究的開(kāi)展,依然有很多問(wèn)題尚待解決。DeepMind 預(yù)測(cè)的結(jié)構(gòu)并非全部都是完美的。還有很多要學(xué)習(xí)的地方,包括多蛋白如何形成復(fù)合體,如何與 DNA、RNA 或者小分子交互,以及如何確定所有氨基酸側(cè)鏈的精確位置。此外,在與他方合作的過(guò)程中,還需要學(xué)習(xí)如何以最好的方式將這些科學(xué)發(fā)現(xiàn)應(yīng)用在新藥開(kāi)發(fā)以及環(huán)境管理方式等諸多方面。

對(duì)于所有致力于科學(xué)領(lǐng)域中計(jì)算和機(jī)器學(xué)習(xí)方法的人而言,像 AlphaFold 這樣的系統(tǒng)彰顯了 AI 作為基礎(chǔ)探索輔助工具的驚人潛力。正如 50 年前 Anfinsen 提出的遠(yuǎn)超當(dāng)時(shí)科研能力所及的挑戰(zhàn)一樣,這個(gè)世界依然有諸多未知的方面。

DeepMind 取得的這一進(jìn)展令人們更加堅(jiān)信,AI 將成為人類擴(kuò)展科學(xué)知識(shí)邊界的最有用工具之一,同時(shí)也期待未來(lái)多年的艱苦工作能夠帶來(lái)更偉大的發(fā)現(xiàn)。

THE END
廣告、內(nèi)容合作請(qǐng)點(diǎn)擊這里 尋求合作
ai
免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表砍柴網(wǎng)的觀點(diǎn)和立場(chǎng)。

相關(guān)熱點(diǎn)

9月25日,華為在全聯(lián)接大會(huì)上發(fā)布了一站式AI開(kāi)發(fā)平臺(tái)ModelArts3.0和多樣性計(jì)算系列開(kāi)發(fā)套件,云與計(jì)算開(kāi)發(fā)者已達(dá)180萬(wàn)。
業(yè)界
8月11日消息,在中國(guó)內(nèi)地,智能電話營(yíng)銷機(jī)器人(或稱人工智能電話助理)正給電話營(yíng)銷領(lǐng)域注入新的活力。
業(yè)界
8月14日消息,近日,全國(guó)信標(biāo)委人工智能分委會(huì)成立大會(huì)暨第一次全體會(huì)議在京召開(kāi),首屆人工智能國(guó)家標(biāo)準(zhǔn)化組織——全國(guó)信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會(huì)人工智能分技術(shù)委員會(huì)(SAC/TC28/SC 42)正式成立,云從科...
業(yè)界
8月7日消息,近日,創(chuàng)新工場(chǎng)舉辦了DeeCamp2020人工智能訓(xùn)練營(yíng)總冠軍答辯暨結(jié)營(yíng)典禮,創(chuàng)新工場(chǎng)董事長(zhǎng)兼CEO李開(kāi)復(fù)博士和創(chuàng)新工場(chǎng)人工智能工程院執(zhí)行院長(zhǎng)王詠剛為學(xué)生進(jìn)行了頒獎(jiǎng),并針對(duì)人工智能相關(guān)話題做了...
業(yè)界
北京時(shí)間7月23日消息,特斯拉公司CEO埃隆·馬斯克(Elon Musk)周三重申了他對(duì)人工智能(AI)未來(lái)的擔(dān)憂。
業(yè)界

相關(guān)推薦

1
3
主站蜘蛛池模板: 看全色黄大色大片| 国产无遮挡又黄又爽在线观看| 四虎影院最新网址| www.五月天婷婷| 窝窝午夜色视频国产精品东北| 国产精品无码素人福利不卡| 丰满黄蓉跪趴高撅肥臀| 永世沉沦v文bysnow全文阅读| 国产人妖ts在线视频观看| a√天堂中文在线最新版| 日韩a级毛片免费观看| 亚洲综合在线观看视频| 香蕉久久夜色精品升级完成| 天天拍拍夜夜出水| 久久天天躁狠狠躁夜夜呲| 狠狠人妻久久久久久综合蜜桃| 国产成人一区二区动漫精品| a级毛片高清免费视频| 日本黄色免费观看| 亚洲理论片在线中文字幕| 色噜噜亚洲精品中文字幕| 国产精品线在线精品国语| 中国少妇无码专区| 极品丰满美女国模冰莲大尺度| 免费夜色污私人影院在线观看| 麻豆麻豆必出精品入口| 天堂bt资源www在线| 久久久久九九精品影院| 欧美国产日韩911在线观看| 厨房切底征服岳| 99视频精品国在线视频艾草 | 国内外成人在线视频| 久久久久亚洲AV无码麻豆| 日韩高清在线免费观看| 人人婷婷色综合五月第四人色阁| 被男按摩师添的好爽在线直播| 国产精品第1页| 97精品伊人久久久大香线焦| 扒开女人双腿猛进猛出免费视频 | 麻豆乱码国产一区二区三区| 在线精品91青草国产在线观看|