紐約大學(xué)團(tuán)隊(duì)開(kāi)發(fā)用于基因組學(xué)的神經(jīng)網(wǎng)絡(luò)，并解釋了它如何實(shí)現(xiàn)準(zhǔn)確的預(yù)測(cè) - IT思維

IT思維 ? 1年前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個(gè)廣告，點(diǎn)擊進(jìn)來(lái)看看。

編輯 | 蘿卜皮

機(jī)器學(xué)習(xí)方法，特別是在大型數(shù)據(jù)集上訓(xùn)練的神經(jīng)網(wǎng)絡(luò)，正在改變科學(xué)家進(jìn)行科學(xué)發(fā)現(xiàn)和實(shí)驗(yàn)設(shè)計(jì)的方式。然而，當(dāng)前最先進(jìn)的神經(jīng)網(wǎng)絡(luò)因其不可解釋性而受到限制：盡管他們具有出色的準(zhǔn)確性，但他們無(wú)法描述他們是如何得出預(yù)測(cè)的。

紐約大學(xué)的研究團(tuán)隊(duì)使用「可解釋的設(shè)計(jì)」方法，提出了一種神經(jīng)網(wǎng)絡(luò) 模型，它揭示了神經(jīng)網(wǎng)絡(luò)（驅(qū)動(dòng)人工智能和機(jī)器學(xué)習(xí) 的引擎）功能的原因。該模型可以深入了解 RNA 剪接，這是將基因組信息轉(zhuǎn)移到功能性 RNA 和蛋白質(zhì)產(chǎn)物的基本過(guò)程。

「許多神經(jīng)網(wǎng)絡(luò)都是黑匣子，這些算法無(wú)法解釋它們的工作原理，引發(fā)人們對(duì)其可信度的擔(dān)憂(yōu)，并阻礙理解基因組編碼的潛在生物過(guò)程的研究進(jìn)展。」紐約大學(xué)庫(kù)朗數(shù)學(xué)科學(xué)研究所計(jì)算機(jī)科學(xué)教授 Oded Regev 說(shuō)。

該研究以「Deciphering RNA splicing logic with interpretable machine learning」為題，于 2023 年 10 月 5 日發(fā)布在《PNAS》。

紐約大學(xué)團(tuán)隊(duì)開(kāi)發(fā)用于基因組學(xué)的神經(jīng)網(wǎng)絡(luò)，并解釋了它如何實(shí)現(xiàn)準(zhǔn)確的預(yù)測(cè) - IT思維

機(jī)器學(xué)習(xí)算法，特別是神經(jīng)網(wǎng)絡(luò)，捕獲輸入和輸出之間復(fù)雜的定量關(guān)系。然而，由于神經(jīng)網(wǎng)絡(luò)通常是黑匣子，因此很難提取事后洞察來(lái)了解它們是如何做到的。此外，它們很容易捕獲訓(xùn)練數(shù)據(jù) 中的偽影或偏差，通常無(wú)法推廣到用于訓(xùn)練和測(cè)試的數(shù)據(jù)集之外，并且一般不會(huì)深入了解底層流程。

近年來(lái)，神經(jīng)網(wǎng)絡(luò)已被用來(lái)解決具有挑戰(zhàn)性的生物學(xué)問(wèn)題。基因組學(xué)中的一個(gè)突出問(wèn)題是理解 RNA 剪接的調(diào)控邏輯，它在信息從 DNA 到功能性 RNA 和蛋白質(zhì)產(chǎn)物的基本轉(zhuǎn)移中發(fā)揮著關(guān)鍵作用。剪接去除內(nèi)含子并將外顯子連接在一起形成成熟的RNA轉(zhuǎn)錄本。雖然一些規(guī)范序列特征對(duì)于外顯子定義是必要的（在內(nèi)含子去除過(guò)程中使用的界定外顯子和分支點(diǎn)的剪接位點(diǎn)），但外顯子序列也有助于外顯子定義。

盡管近期使用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)剪接結(jié)果取得了成功，但了解外顯子序列如何決定包含或跳過(guò)仍然是一個(gè)開(kāi)放的挑戰(zhàn)。剪接邏輯的敏感性進(jìn)一步凸顯了這一挑戰(zhàn)，其中沿著外顯子的幾乎所有單核苷酸變化都會(huì)導(dǎo)致剪接結(jié)果的巨大變化。

為了實(shí)現(xiàn)科學(xué)進(jìn)步，機(jī)器學(xué)習(xí)模型不僅應(yīng)該準(zhǔn)確預(yù)測(cè)結(jié)果，還應(yīng)該描述它們?nèi)绾蔚贸鲱A(yù)測(cè)。在這里，紐約大學(xué)的研究人員證明了「可解釋設(shè)計(jì)」模型在不犧牲可解釋性的情況下實(shí)現(xiàn)了預(yù)測(cè)準(zhǔn)確性，捕獲了統(tǒng)一的決策邏輯，并揭示了以前未表征的剪接特征。

紐約大學(xué)團(tuán)隊(duì)開(kāi)發(fā)用于基因組學(xué)的神經(jīng)網(wǎng)絡(luò)，并解釋了它如何實(shí)現(xiàn)準(zhǔn)確的預(yù)測(cè) - IT思維

圖示：數(shù)據(jù)生成和可解釋的設(shè)計(jì)機(jī)器學(xué)習(xí)模型。（來(lái)源：論文）
「通過(guò)利用一種提高機(jī)器學(xué)習(xí)訓(xùn)練數(shù)據(jù)數(shù)量和質(zhì)量的新方法，我們?cè)O(shè)計(jì)了一種可解釋的神經(jīng)網(wǎng)絡(luò)，可以準(zhǔn)確預(yù)測(cè)復(fù)雜的結(jié)果并解釋它是如何得出預(yù)測(cè)的。」Regev 說(shuō)。

模型的可解釋性使人們能夠系統(tǒng)地理解 RNA 剪接邏輯，包括識(shí)別兩個(gè)候選外顯子跳躍特征，并隨后進(jìn)行實(shí)驗(yàn)驗(yàn)證。該模型能夠量化特定特征對(duì)單個(gè)外顯子剪接結(jié)果的貢獻(xiàn)，對(duì)于一系列醫(yī)療和生物技術(shù)應(yīng)用具有巨大的潛力，包括對(duì)目標(biāo)外顯子進(jìn)行基因組或 RNA 編輯以糾正剪接行為或指導(dǎo)基于 RNA 的療法（如反義寡核苷酸）的合理設(shè)計(jì)。

此外，模型識(shí)別的特征暗示了值得進(jìn)一步研究的新生化機(jī)制。例如，剪接決策通過(guò)附加量很好地建模，這一事實(shí)支持涉及 SR 和 hnRNP 蛋白核空間組織的生化機(jī)制。

Regev 指出：「我們的模型表明，RNA 中的一種小型發(fā)夾狀結(jié)構(gòu)可以減少剪接。」

圖示：發(fā)卡結(jié)構(gòu)的驗(yàn)證。（來(lái)源：論文）

另外，該模型還發(fā)現(xiàn)了兩個(gè)不尋常的外顯子跳躍特征。這些特征可能被未表征的 RNA 結(jié)合蛋白或復(fù)合物識(shí)別。或者，引入高度結(jié)構(gòu)化或非結(jié)構(gòu)化區(qū)域可能會(huì)改變剪接位點(diǎn)之間的物理距離，從而增強(qiáng)外顯子跳躍。這些懸而未決的問(wèn)題進(jìn)一步強(qiáng)調(diào)了可解釋設(shè)計(jì)模型如何通過(guò)幫助假設(shè)生成來(lái)推進(jìn)科學(xué)發(fā)現(xiàn)。

該模型在來(lái)自永生化細(xì)胞系的合成數(shù)據(jù)集上表現(xiàn)良好，但需要進(jìn)一步的工作來(lái)捕獲發(fā)育調(diào)節(jié)剪接邏輯的動(dòng)態(tài)。重要的是，剪接結(jié)果的變化取決于細(xì)胞類(lèi)型特異性 RNA 結(jié)合蛋白的表達(dá)水平。這些問(wèn)題可以通過(guò)在發(fā)育相關(guān)的細(xì)胞類(lèi)型中生成額外的合成剪接數(shù)據(jù)集以及捕獲細(xì)胞類(lèi)型特異性調(diào)控特征的可解釋設(shè)計(jì)模型來(lái)解決。

除了剪接的背景之外，可解釋的設(shè)計(jì)框架還可用于破譯決定生物分子加工的多個(gè)、復(fù)雜和重疊的代碼。重要的是，許多豐富的合成數(shù)據(jù)集已經(jīng)生成，涉及 RNA 非翻譯 5′ 和 3′ 區(qū)域調(diào)控、甲基化和小 RNA 生物發(fā)生。研究人員認(rèn)為，額外的數(shù)據(jù)生成工作與可解釋的設(shè)計(jì)框架相結(jié)合將促進(jìn)更廣泛地理解生物密碼的進(jìn)步。

論文鏈接：https://www.pnas.org/doi/10.1073/pnas.2221165120

相關(guān)報(bào)道：https://techxplore.com/news/2023-10-neural-network-genomics-accurate.html

久草视频2-久草视-久草社区视频-久草色在线-久草色视频-久草软件

紐約大學(xué)團(tuán)隊(duì)開(kāi)發(fā)用于基因組學(xué)的神經(jīng)網(wǎng)絡(luò)，并解釋了它如何實(shí)現(xiàn)準(zhǔn)確的預(yù)測(cè) - IT思維

隨意打賞

可編程芯片首次用光訓(xùn)練神經(jīng)網(wǎng)絡(luò)

新加坡國(guó)立大學(xué)賴(lài)載興教授專(zhuān)訪(fǎng)：用混沌邊緣改善神經(jīng)網(wǎng)絡(luò)，與上帝擲骰子

車(chē)路云一體化建設(shè)：三旺通信TSN方案構(gòu)建智能交通神經(jīng)網(wǎng)絡(luò)

用擴(kuò)散模型生成神經(jīng)網(wǎng)絡(luò)？NUS 尤洋團(tuán)隊(duì)：這不是開(kāi)玩笑

微美全息研究基于混合循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)的人機(jī)協(xié)作意圖識(shí)別

微美全息創(chuàng)新突破利用群體智能算法優(yōu)化人工神經(jīng)網(wǎng)絡(luò)

華為等靠激光雷達(dá)推自動(dòng)駕駛！特斯拉不屑全力拋棄：開(kāi)始依賴(lài)神經(jīng)網(wǎng)絡(luò)

使用卷積神經(jīng)網(wǎng)絡(luò)從相關(guān) Moiré 超晶格的STM數(shù)據(jù)中學(xué)習(xí)有效的理論模型 - IT思維

一種新型神經(jīng)網(wǎng)絡(luò)正在幫助物理學(xué)家應(yīng)對(duì)數(shù)據(jù)分析的艱巨挑戰(zhàn) - IT思維