哥倫比亞大學(xué)瓦格洛斯內(nèi)外科醫(yī)學(xué)院團(tuán)隊(duì)開發(fā)了一種創(chuàng)新的人工智能(AI)模型——通用表達(dá)轉(zhuǎn)換器(GET),該模型能夠精確預(yù)測人類細(xì)胞內(nèi)的基因活動(dòng),為理解細(xì)胞內(nèi)部工作機(jī)制提供了全新視角。這項(xiàng)突破性成果可幫助科學(xué)家以前所未有的方式,探索從癌癥到遺傳疾病等一系列健康問題,推動(dòng)醫(yī)學(xué)研究向前邁進(jìn)一大步。相關(guān)論文發(fā)表在最新一期《自然》雜志上。
傳統(tǒng)生物學(xué)方法擅長描述細(xì)胞的工作原理,以及它們?nèi)绾雾憫?yīng)外界變化,但缺乏對細(xì)胞行為及其對變化(例如致癌突變)反應(yīng)的預(yù)測能力。相比之下,GET模型能夠準(zhǔn)確預(yù)測細(xì)胞活動(dòng),這標(biāo)志著生物學(xué)從一個(gè)主要依賴描述性分析的領(lǐng)域,轉(zhuǎn)變?yōu)榭梢灶A(yù)測并調(diào)控細(xì)胞行為背后系統(tǒng)的科學(xué)。
此次,團(tuán)隊(duì)利用AI預(yù)測特定細(xì)胞內(nèi)活躍的基因,這類信息對于確定細(xì)胞身份及功能至關(guān)重要。他們利用來自正常人體組織的數(shù)百萬個(gè)細(xì)胞的基因表達(dá)數(shù)據(jù)訓(xùn)練了一個(gè)機(jī)器學(xué)習(xí)模型,這些數(shù)據(jù)不僅包括基因組序列,也涵蓋了有關(guān)基因組哪些部分是可訪問和表達(dá)的信息。
GET模型的整體思路與ChatGPT等大型語言模型相仿:通過訓(xùn)練數(shù)據(jù)識(shí)別基礎(chǔ)規(guī)則(如語言語法),然后將這些規(guī)則應(yīng)用于新場景。經(jīng)過數(shù)據(jù)訓(xùn)練后,GET模型變得足夠精準(zhǔn),可以預(yù)測未曾見過的細(xì)胞類型中的基因表達(dá)模式,并且結(jié)果與實(shí)驗(yàn)數(shù)據(jù)高度一致。
此外,團(tuán)隊(duì)還使用GET模型揭示了患病細(xì)胞中隱藏的生物機(jī)制。在一個(gè)具體案例中,針對一種遺傳性兒童白血病的研究顯示,AI成功預(yù)測了某些突變會(huì)破壞決定白血病細(xì)胞命運(yùn)的兩種轉(zhuǎn)錄因子之間的互動(dòng),實(shí)驗(yàn)證實(shí)了AI的預(yù)測。這增強(qiáng)了人們對這種疾病驅(qū)動(dòng)機(jī)制的理解。
這項(xiàng)研究不僅為探索多種疾病病理開辟了新途徑,也為發(fā)現(xiàn)新的治療靶點(diǎn)提供了可能。現(xiàn)在,科學(xué)家可以通過向計(jì)算機(jī)模型輸入新發(fā)現(xiàn)的突變,來了解和預(yù)測這些突變對細(xì)胞的具體影響。
(責(zé)任編輯:華康)