Categories
科技報導

研究人員使用深度學習探索RNA來開髮用於COVID-19診斷的傳感器



基因組是決定生物特徵的遺傳藍圖。 對於病毒而言,DNA和RNA是基因組序列的組成部分,對這些核酸的直接操作可以使生物體發生真正的變化。 因此,基因工程的發展集中在我們操縱基因組序列的能力上。 但這是一項艱鉅的任務。 例如,精確控制一類專門設計的RNA分子 “腳趾開關” 可以為了解細胞環境和潛在疾病提供重要見解。

但是,先前的實驗表明 “腳趾開關” 是不可控制的。 在許多情況下,即使有機體已根據已知的RNA折疊規則設計成針對給定的輸入產生所需的輸出,也不會對修飾產生反應。

考慮到這一點,哈佛大學懷斯研究所和麻省理工學院的兩個研究團隊開發了一套機器學習算法,可以改善這一過程。 他們使用深度學習來分析大量的趾甲開關序列,以準確預測哪些趾甲可以可靠地執行預期的任務,以便研究人員可以為他們的實驗確定高質量的趾甲。 他們的研究結果已發表在《自然》雜誌上的兩篇論文中。

為了解決任何機器學習問題,第一步是收集特定的領域數據以訓練模型。 研究人員收集了一個由腳趾開關序列組成的大型數據集。 共同第一作者,在Wyss工作的研究生Alex Garruss說。

“通過對23種病毒和906種人類轉錄因子的整個基因組中的短觸發區域進行系統採樣,我們設計並合成了一個龐大的腳趾開關庫,總數接近100,000。”

由於有兩個獨立的團隊,研究人員嘗試了兩種不同的技術來解決此問題。 第一篇論文的作者決定不將趾甲開關作為基本序列進行分析,而是將其作為具有鹼基對可能性的二維圖像進行分析。 這種稱為可視化二級結構顯著性圖或VIS4Map的方法成功地識別了影響腳趾開關性能的物理元素,並提供了對傳統分析技術未發現的RNA折疊機制的見解。

研究人員使用深度學習探索RNA來開髮用於COVID-19診斷的傳感器 1

在生成了數千個趾甲開關的數據集之後,一個團隊使用基於計算機視覺的算法將開關序列分析為二維圖像,而另一個團隊使用自然語言處理將序列解釋為RNA “語言 “書面”文本”。

第二篇論文的作者使用正交技術處理識別問題,創建了兩種不同的深度學習架構 “易感的”腳趾甲切換的挑戰。 第一個模型基於卷積神經網絡(CNN)和多層感知器(MLP),將指甲序列視為一維圖像或核苷酸基礎基線。 “基於序列的鞋頭優化和重新設計模型”(STORM)優化技術,該技術可識別鹼基的模式以及這些鹼基之間的潛在相互作用,以標記出感興趣的起點。

第二種體系結構將問題建模到自然語言處理(NLP)域中,將每個腳趾序列視為由單詞模式組成的短語。 然後,任務是訓練一個模型來組合這些單詞或核苷酸鹼基以構成一個連貫的短語。 該模型與基於CNN的模型結合以創建核酸語音(NuSpeak)。 這項優化技術重新設計了給定腳趾甲開關的最後9個核苷酸,同時保持其餘21個核苷酸不變。 這樣,可以創建特殊的腳趾甲開關來檢測特定病原體RNA序列的存在,並可以用於開發新的診斷測試。

研究人員使用深度學習探索RNA來開髮用於COVID-19診斷的傳感器 2

通過依次使用這兩個模型,研究人員可以預測哪些趾甲序列將產生高質量的傳感器

為了測試這兩種模型,研究人員使用其優化的腳趾甲開關感應SARS-CoV-2片段,SARS-CoV-2是導致COVID-19的病毒基因組。 NuSpeak將傳感器的性能平均提高了160%。 另一方面,STORM創建了四個更好的SARS-CoV-2病毒RNA傳感器版本,其性能提高了28倍。 對於這些令人印象深刻的結果,第二篇論文的第一作者,懷斯學院的麻省理工學院的學生凱蒂·柯林斯說。

“STORM和NuSpeak平台的真正好處是,它們使您能夠快速設計和優化合成生物學組件,正如我們為COVID-19診斷開發的趾甲傳感器所證明的那樣。