人類基因組計(jì)劃完成20多年來,超過九成的非編碼序列仍是未破譯的“天書”,是基因組的“暗物質(zhì)”。近日,浙江大學(xué)醫(yī)學(xué)院郭國驥、韓曉平教授團(tuán)隊(duì)在《細(xì)胞》發(fā)布最新成果,其自主研發(fā)的AI生物大模型“女媧CE”(簡稱NvwaCE),為破譯非編碼序列提供了全新的工具。
據(jù)悉,“女媧CE”大模型能從一級DNA序列出發(fā),精準(zhǔn)預(yù)測脊椎動(dòng)物基因突變對細(xì)胞的表型影響,精度達(dá)單細(xì)胞級,準(zhǔn)確率超90%。此外,它還成功預(yù)測并經(jīng)實(shí)驗(yàn)驗(yàn)證了罕見病鐮刀型貧血癥的基因治療位點(diǎn),成為世界首例AI預(yù)測的人類疾病治療性位點(diǎn)。
“通過深度學(xué)習(xí),那些人類暫時(shí)無法理解的復(fù)雜語法,正在被AI學(xué)習(xí)、解析。”郭國驥就課題最新進(jìn)展,接受了文匯報(bào)記者專訪。
單細(xì)胞圖譜,讓AI大模型有了“精品教材”
人類幾乎所有具體的生理機(jī)能都依靠蛋白質(zhì)來完成。在人類基因組中,編碼序列(對蛋白質(zhì)進(jìn)行編碼,直接表達(dá)為蛋白質(zhì))僅占1%-2%,剩下的98%都是非編碼序列(不會(huì)直接表達(dá)為蛋白質(zhì),包含調(diào)控序列)。
這98%的非編碼序列,在很長一段時(shí)間內(nèi),無法被理解。近年來,隨著AI和生物學(xué)研究的深入,科學(xué)家們發(fā)現(xiàn),這些序列對基因的表達(dá)調(diào)控,有可能被解讀。
“生命科學(xué)研究長期以‘還原論’為主,也就是科學(xué)家會(huì)將某個(gè)表型還原到某個(gè)基因,研究它的調(diào)控和功能。但進(jìn)入調(diào)控序列,這種方法就行不通了。”郭國驥解釋,非編碼序列有一套復(fù)雜精密的“語法系統(tǒng)”,決定了哪個(gè)基因在何時(shí)、何地、以何種強(qiáng)度表達(dá)。每一個(gè)調(diào)控序列的堿基,都可能在不同時(shí)間、不同類型細(xì)胞中扮演不同角色。因此,用傳統(tǒng)敲除驗(yàn)證的方法,就像盲人摸象。
2020年,郭國驥團(tuán)隊(duì)完成了小鼠和人類細(xì)胞圖譜的一系列工作,他們開始思考,從生物的一級DNA序列尋找細(xì)胞圖譜的編碼模式。當(dāng)時(shí),傳統(tǒng)學(xué)界并不理解?!皯{什么一級DNA序列就會(huì)決定終極表型?”但郭國驥認(rèn)為,生物的表觀、表型等復(fù)雜現(xiàn)象的“因”,深植于DNA序列本身。從一級DNA序列出發(fā),研究生物表型,遠(yuǎn)比直接研究生物表型特征之間的聯(lián)系更能找到本質(zhì)規(guī)律。
傳統(tǒng)表型檢測外貌、身高、指紋之類的宏觀表型。郭國驥則將之精細(xì)到單細(xì)胞級別的分子表型?!皢蝹€(gè)細(xì)胞里面的分子是什么?我們測的是這種‘沒有偏見’的分子表型?!?br style="outline: none; color: rgb(49, 49, 49); font-family: "Microsoft YaHei"; text-align: justify; text-wrap: wrap;">
為此,團(tuán)隊(duì)在傳統(tǒng)的ATAC測序技術(shù)上自主研發(fā)出超高靈敏度、超高通量的單細(xì)胞級測序技術(shù)UUATAC-seq,使測序靈敏度在理論上提升了4倍,通量提升了10到100倍,可以在單日內(nèi)高效繪制一個(gè)物種所有類型細(xì)胞核中的染色質(zhì)可及性圖譜。以此為基礎(chǔ),團(tuán)隊(duì)科學(xué)家繪制出涵蓋哺乳類、鳥類、兩棲類、爬行類、水生類五大類脊椎動(dòng)物的單細(xì)胞圖譜數(shù)據(jù)集。
通過研究范式創(chuàng)新獲得高質(zhì)量的數(shù)據(jù),是這個(gè)團(tuán)隊(duì)的核心科研優(yōu)勢所在。據(jù)介紹,國外許多頂尖的基因組AI模型,比如近日Deepmind團(tuán)隊(duì)預(yù)發(fā)表的AlphaGenome,都是基于ENCODE項(xiàng)目進(jìn)行數(shù)據(jù)訓(xùn)練。由于該數(shù)據(jù)集年代久遠(yuǎn)、最長已超過20年,其涵蓋的基本是“群體細(xì)胞”“器官細(xì)胞”或者在體外培養(yǎng)的“細(xì)胞系”數(shù)據(jù),存在分辨率低、不同類型細(xì)胞混雜的問題。用這樣的數(shù)據(jù)集訓(xùn)練AI,好比用一本內(nèi)容模糊、混雜的教材教學(xué)生。
相較而言,女媧CE的訓(xùn)練集堪稱“精品”,所有數(shù)據(jù)在同一技術(shù)標(biāo)準(zhǔn)下產(chǎn)生,精度達(dá)到單細(xì)胞級別,數(shù)據(jù)噪音更少,有高度的可比性與純凈性。
“可以說,我們?yōu)锳I提供了迄今為止最適合學(xué)習(xí)基因調(diào)控語法的訓(xùn)練集?!惫鶉K說。
更高精度帶來驚人發(fā)現(xiàn):“生命語法”比DNA序列本身更保守
與依賴大量數(shù)據(jù)、超長掃描窗口(讀長)的生物深度學(xué)習(xí)算法不同,女媧CE采用多任務(wù)框架、超短掃描窗口,直接學(xué)習(xí)從一級DNA序列到生物體所有類型細(xì)胞表型的映射關(guān)系?!癆I學(xué)到了一些我們?nèi)祟悤簳r(shí)無法理解的復(fù)雜規(guī)則?!惫鶉K說,通過這種規(guī)則,就能讓基因組的“暗物質(zhì)”開口說話,進(jìn)而預(yù)測基因突變帶來的后果。
借助女媧CE,以500堿基對(簡稱bp)的“短窗口”進(jìn)行分段掃描,團(tuán)隊(duì)發(fā)現(xiàn),在億萬年的演化長河中,脊椎動(dòng)物的基因“調(diào)控語法”比其核苷酸序列本身更為保守。
“這意味著,在進(jìn)化過程中,即使物種的某段調(diào)控序列和過去已完全不同,但它們最終行使的功能依然類似。”郭國驥說,這一發(fā)現(xiàn)對達(dá)爾文進(jìn)化論中的“隨機(jī)突變”提出了重要補(bǔ)充:脊椎動(dòng)物的基因組突變并非完全隨機(jī),適者生存并非僅僅依靠環(huán)境篩選,還有一套深刻的內(nèi)在調(diào)控語法約束著進(jìn)化過程。“任何跳出這套語法的突變,可能胚胎都無法形成。它在接受自然選擇前,就被生命底層的邏輯淘汰了?!?br style="outline: none; color: rgb(49, 49, 49); font-family: "Microsoft YaHei"; text-align: justify; text-wrap: wrap;">
這一發(fā)現(xiàn)本身,也成為了女媧CE算法的重要組成部分,讓它擁有超高泛化能力。女媧CE能夠從基因組序列出發(fā),預(yù)測未經(jīng)訓(xùn)練物種的細(xì)胞染色質(zhì)可及性藍(lán)圖,并一次性預(yù)測了包括人、猴、牛、豬、馬、羊、熊貓七個(gè)物種的單細(xì)胞調(diào)控原件藍(lán)圖。
女媧CE的正式發(fā)表,也意味著中國科學(xué)家團(tuán)隊(duì)在AI基因組大模型研發(fā)的賽道上已先人一步。團(tuán)隊(duì)表示,相關(guān)數(shù)據(jù)和模型本身,將會(huì)全部開源。
世界首例AI預(yù)測基因位點(diǎn)成功,開拓基因治療新路徑
要知道,很多遺傳性疾病、罕見病,都是因?yàn)榧?xì)胞的表型異常。以往,當(dāng)科學(xué)家們試圖通過基因編輯手段治療這些疾病,只能通過“神農(nóng)嘗百草”的方式,不斷嘗試,嘗試幾百、上千次都不算多的。但是,有了AI,就可以根據(jù)異常表型特征,讓AI預(yù)測哪些基因位點(diǎn)最有可能讓表型恢復(fù)正常。
針對鐮狀細(xì)胞病,女媧CE就預(yù)測出了治療關(guān)鍵位點(diǎn):胎兒血紅蛋白基因HBG1-68:A>G。這是一個(gè)全新的、從未被記錄過的位點(diǎn)。進(jìn)一步實(shí)驗(yàn)顯示,該位點(diǎn)在基因編輯后能夠?qū)崿F(xiàn)胎兒血紅蛋白表達(dá)量的顯著提升,這也是科學(xué)家首次在人類細(xì)胞中驗(yàn)證了基因組AI預(yù)測的功能性位點(diǎn)。
除了“女媧”,還有“華佗”“神農(nóng)”……郭國驥坦言,他偏愛用中國傳統(tǒng)神話為自己的算法命名,這既是對傳統(tǒng)文化的致敬,也寄托了一種希望?!癆I或許最終會(huì)超越人類,向著‘神性’發(fā)展,就像神話中的女媧摶土造人,幫我們理解乃至創(chuàng)造生命,解決人類的難題?!?br style="outline: none; color: rgb(49, 49, 49); font-family: "Microsoft YaHei"; text-align: justify; text-wrap: wrap;">
郭國驥團(tuán)隊(duì)的下一步計(jì)劃,是構(gòu)建虛擬細(xì)胞,將調(diào)控元件模型與網(wǎng)絡(luò)模型、蛋白質(zhì)結(jié)構(gòu)模型等模塊整合,創(chuàng)造出“數(shù)字小鼠”乃至“數(shù)字人類”。有了這樣的“數(shù)字生命”,科學(xué)家就可以高效進(jìn)行虛擬實(shí)驗(yàn),測試基因突變的影響或篩選疾病藥物和治療位點(diǎn),從而大幅縮短研發(fā)周期、降低成本,并極大減少實(shí)驗(yàn)動(dòng)物的使用,讓未來的臨床試驗(yàn)更安全、更精準(zhǔn)。
業(yè)余時(shí)間,郭國驥還是一位歌者。他創(chuàng)作的歌曲《生命》中,有這樣一句歌詞:“宇宙浩瀚無窮盡,卻不及她的珍貴……該如何解開基因的密鎖,該如何理清神經(jīng)的網(wǎng)絡(luò),千山萬水尋尋覓覓,春去秋來上下求索?!?br style="outline: none; color: rgb(49, 49, 49); font-family: "Microsoft YaHei"; text-align: justify; text-wrap: wrap;">
為生命求索,中國科學(xué)家從未停下前進(jìn)的腳步。
本文鏈接:http://www.enbeike.cn/news-8-6056-0.html中國“女媧”讓基因組“暗物質(zhì)”現(xiàn)原形
聲明:本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請大家謹(jǐn)防詐騙!若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。
點(diǎn)擊右上角微信好友
朋友圈
點(diǎn)擊瀏覽器下方“”分享微信好友Safari瀏覽器請點(diǎn)擊“
”按鈕
點(diǎn)擊右上角QQ
點(diǎn)擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點(diǎn)擊“
”按鈕