在人工智能革命之前,蛋白質(zhì)設(shè)計方法僅限于基于自然界現(xiàn)有蛋白質(zhì)生成設(shè)計,這存在局限性,因為大自然只對可能的蛋白質(zhì)景觀的一小部分進(jìn)行了采樣。相比之下,生成式人工智能方法強(qiáng)調(diào)從頭開始的蛋白質(zhì)設(shè)計——從零開始設(shè)計新的蛋白質(zhì)——以擴(kuò)大功能和理想屬性的范圍,超越自然界已經(jīng)實現(xiàn)的功能。
在《Nature》雜志上發(fā)表的一項名為“用可編程生成模型照亮蛋白質(zhì)空間”的新研究中,研究人員提出了一種名為Chroma的生成式人工智能(AI)模型,該模型創(chuàng)造了自然界中以前未發(fā)現(xiàn)的具有可編程特性的新型蛋白質(zhì),具有治療潛力,并在實驗室中取得了實驗成功。Chroma用于在外部約束下設(shè)計蛋白質(zhì),包括對稱性、子結(jié)構(gòu)、形狀,甚至是自然語言提示。實驗表征了從Chroma產(chǎn)生的310種蛋白質(zhì),這些蛋白質(zhì)表達(dá)、折疊并具有良好的生物物理特性。
這項工作來自馬薩諸塞州薩默維爾(Somerville)的Generate:Biomedicines公司,該公司致力于機(jī)器學(xué)習(xí)、生物工程和醫(yī)學(xué)的交叉研究,重點是蛋白質(zhì)設(shè)計。
Biomedicines的聯(lián)合創(chuàng)始人兼首席技術(shù)官Gevorg Grigoryan博士指出,可編程性從一開始就是Chroma框架不可或缺的一部分,因為生產(chǎn)治療應(yīng)用需要的不僅僅是生成可以通過實驗驗證的結(jié)構(gòu)。評估蛋白質(zhì)的功能,如結(jié)合、變構(gòu)控制和酶活性,對治療潛力至關(guān)重要。
此外,這項研究的一個新穎之處在于,當(dāng)考慮在蛋白質(zhì)設(shè)計活動中進(jìn)行實驗驗證時,它改變了范式。
“我們的目標(biāo)不是‘我想讓這種蛋白質(zhì)起作用’,而是表征這種模型。我們想了解Chroma學(xué)到的東西有多少是真實的,多少是不真實的,”Grigoryan說。
在決定實驗驗證哪些計算結(jié)構(gòu)時,常用的方法包括一個過濾步驟,在這個步驟中,蛋白質(zhì)設(shè)計者根據(jù)他們對生物物理結(jié)構(gòu)的理解來批評設(shè)計,例如由于溶解度問題而懲罰疏水區(qū)域的過度代表。
讓數(shù)據(jù)為你工作
蛋白質(zhì)設(shè)計領(lǐng)域傳統(tǒng)的“自下而上”方法,即基于原子的生物物理動力學(xué)模擬蛋白質(zhì)行為,在邏輯上是“精細(xì)和一致的”,但并沒有帶來現(xiàn)在通過機(jī)器學(xué)習(xí)可以實現(xiàn)的進(jìn)步。
機(jī)器學(xué)習(xí)方法不是從第一原理開始,評估模擬是否準(zhǔn)確,而是從觀察開始,推斷導(dǎo)致這些觀察的原理。
具體來說,Chroma利用了擴(kuò)散模型,這是一種機(jī)器學(xué)習(xí)工具,在圖像生成工具中取得了相當(dāng)大的成功,例如Midjourney、OpenAI的DALL-E 2和Stability AI的Stable diffusion。這些生成模型學(xué)習(xí)訓(xùn)練數(shù)據(jù)的模式,并生成具有相似特征的新輸出。這個框架使Chroma具有可塑性,可以引入新的可編程條件。
“為新屬性創(chuàng)建模型并將其插入Chroma非常容易。與DALL-E圖像生成器類似,您不必為動物、海灘和山脈創(chuàng)建單獨的圖像模型。你只要告訴模型,‘我想要一只戴著寬邊帽在海灘上跳舞的熊貓’,它就能為你生成這樣的場景。”
Chroma并不是唯一利用擴(kuò)散模型進(jìn)行蛋白質(zhì)設(shè)計的生成式人工智能工具。今年7月,華盛頓大學(xué)(UW)蛋白質(zhì)設(shè)計研究所(IPD)主任、生物化學(xué)教授David Baker博士的實驗室在《Nature》雜志上發(fā)表了他們的擴(kuò)散模型RoseTTAFold擴(kuò)散(RFdiffusion),該模型證明了強(qiáng)有力的實驗驗證和易用性。
“到目前為止,[Chroma]只被實驗證明可以設(shè)計新的結(jié)構(gòu),但可能適用于設(shè)計新的蛋白質(zhì),肽和小分子相互作用,正如RFdiffusion所證明的那樣,”Baker說。
有效的蛋白質(zhì)設(shè)計模型只是更廣泛的治療發(fā)現(xiàn)過程的一部分。
“Chroma是一個模型,而不是藥物打印機(jī)。還有很多東西要做治療,這可能是資源密集型的,涉及干濕實驗室之間非常緊密的整合,”Grigoryan說。
向所有人開放
Chroma背后的代碼作為開源軟件提供給學(xué)術(shù)界和工業(yè)界的所有研究人員。
“我們的意圖是在發(fā)布預(yù)印本之前先開源。從社會的角度來看,阻礙[Chroma]在推進(jìn)生物醫(yī)學(xué)科學(xué)以及其他應(yīng)用(如納米技術(shù)和材料科學(xué))方面的作用是不對的,”Grigoryan解釋說。
從公司的角度來看,Grigoryan還指出,能夠繼續(xù)走在科學(xué)前沿的能力與公司吸引和留住最優(yōu)秀人才的能力有關(guān)。分享這項工作是為研究界做出貢獻(xiàn)的關(guān)鍵行動。
雖然擴(kuò)散模型是“當(dāng)下的潮流”,但新的蛋白質(zhì)設(shè)計工具有望滲透到一個快速增長的領(lǐng)域。
“既然代碼是可用的,(全人類)當(dāng)然可以自由地在其基礎(chǔ)上進(jìn)行構(gòu)建并創(chuàng)建更好的版本。我期待并希望這正是發(fā)生的事情。”
Illuminating protein space with a programmable generative model
(文章來源:www.ebiotrade.com/newsf/2023-11) |