中新網(wǎng)上海3月22日電 (記者 許婧)上海交通大學特聘教授洪亮團隊22日發(fā)布最新成果:團隊將AI與蛋白質設計與改造相結合,建立了全球最大的蛋白質數(shù)據(jù)集,基于該數(shù)據(jù)集訓練的模型,可以精準、高效地預測、設計蛋白質的功能,把蛋白質生產(chǎn)由“緩慢的試錯”變?yōu)椤案咝实木珳试O計”。
蛋白質是由氨基酸序列構成的,氨基酸序列的長度從數(shù)百個到上千個不等。AI時代,數(shù)據(jù)是推動技術進步的核心資源,龐大的蛋白質序列數(shù)據(jù)集能幫助模型更好地理解蛋白質的序列、結構和功能關系。洪亮團隊建立的蛋白質序列數(shù)據(jù)集Venus-Pod(Venus-Protein Outsize Dataset)含有近90億條蛋白質序列,包含數(shù)億個功能標簽,是全球數(shù)據(jù)規(guī)模最大、功能批注標簽最多的數(shù)據(jù)集,也是另一行業(yè)知名模型——美國ESM-C模型訓練用的21億蛋白質序列的4倍體量。
3月22日,洪亮教授在上海交通大學蛋白質功能預測Venus系列模型發(fā)布暨產(chǎn)業(yè)合作峰會上發(fā)布該成果?! ∩虾=煌ù髮W供圖
洪亮表示,該數(shù)據(jù)集構成了巨大的“蛋白質礦藏”,使得人類有可能挖掘新的蛋白或者生物催化劑,助力生物醫(yī)藥和合成生物學的快速發(fā)展;其次,AI大模型有望通過海量數(shù)據(jù)的學習和掌握自然界蛋白質的進化模式,為AI設計優(yōu)異的蛋白質產(chǎn)品提供寶貴的學習資料。
蛋白質是由20種氨基酸組成的一條高分子鏈,這個高分子鏈會扭曲并折疊成獨特的三維結構,正是這種獨特結構賦予了特定蛋白質的生物功能。要設計出一款成功的蛋白質產(chǎn)品,不能只關注它的三維結構,而是要能成功預測和設計它的功能。洪亮團隊直接瞄準“功能預測”這一終極目標,將復雜的蛋白質設計變成以需求為導向,配合少量實驗輸出結果的簡單過程。
“我們訓練了Venus(啟明星)系列模型,與DeepMind團隊的AlphaFold預測蛋白質結構不同,這個模型學習自然界蛋白質序列的組織規(guī)則以及它與功能之間的關系,其預測蛋白質突變功能的精度位居行業(yè)榜單之首?!焙榱琳f,Venus系列模型具備兩大核心功能:“AI定向進化”與“AI挖酶”。這些超常規(guī)功能的蛋白質在生物技術、醫(yī)藥研發(fā)和工業(yè)生產(chǎn)中具有巨大的應用潛力,能夠為相關領域帶來創(chuàng)新和突破。
同時,配合Venus系列模型的全球首款低通量大體積蛋白質表達、純化與功能檢測自動化一體機,可在24小時內不間斷地完成100余個蛋白質的表達、純化與檢測任務,較人力效率提高近10倍,將大大減少研發(fā)過程中的人力、物力和時間成本投入,顯著提高蛋白質工程與合成生物學研究的效率。
據(jù)介紹,一款功能過硬的蛋白質產(chǎn)品的誕生,通常需要豐富的專家經(jīng)驗配合數(shù)以萬計的實驗試錯。長期以來,蛋白質設計改造的時間長、成本高、試錯密集問題,一直是業(yè)界難題。
洪亮介紹,該成果配合行業(yè)領先的自動化設備,已經(jīng)進行產(chǎn)業(yè)化落地,比如Venus系列模型對某體外診斷頭部公司堿性磷酸酶(ALP)的改造項目。Venus系列模型成功優(yōu)化 ALP,使其分子活性超國際頭部公司產(chǎn)品3倍,為超敏檢測診斷(如心肌梗塞、阿爾茲海默癥)帶來巨大價值。目前,改造后的 ALP已進入200L規(guī)模放大生產(chǎn)階段,標志著Venus系列模型成功實現(xiàn)產(chǎn)業(yè)轉化。(完)
本文鏈接:http://www.enbeike.cn/news-8-2876-0.html上海交大發(fā)布蛋白質設計模型“Venus”
聲明:本網(wǎng)頁內容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
點擊右上角微信好友
朋友圈
點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“
”按鈕
點擊右上角QQ
點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“
”按鈕