您現在的位置是:首頁 >動態 > 2020-11-11 09:25:41 來源:
機器學習發現潛在的新結核病藥物
機器學習是許多生物學家用來分析大量數據的計算工具,可幫助他們識別潛在的新藥。麻省理工學院的研究人員現在已經將一種新功能集成到這些類型的機器學習算法中,從而提高了它們的預測能力。
麻省理工學院的研究小組使用這種允許計算機模型考慮其分析數據不確定性的新方法,確定了幾種有前途的化合物,這些化合物針對引起結核病的細菌所需的蛋白質。
西蒙斯(Simons)數學教授,計算與生物學小組負責人邦妮·伯杰(Bonnie Berger)表示,這種方法先前已被計算機科學家所采用,但尚未在生物學中普及,也可能被證明對蛋白質設計和許多其他生物學領域有用。在麻省理工學院的計算機科學和人工智能實驗室(CSAIL)獲得博士學位。
Berger說:“這項技術是機器學習的一個已知子領域的一部分,但是人們還沒有將它帶入生物學。” “這是一個范式轉變,絕對是生物學探索的方式。”
麻省理工學院生物工程學助理教授,MGH,麻省理工學院和哈佛大學拉貢研究所的成員Berger和Bryan Bryson是該研究的高級作者,該研究今天發表在Cell Systems中。麻省理工學院的研究生Brian Hie是該論文的主要作者。
更好的預測
機器學習是計算機建模的一種,其中算法學習基于已看到的數據進行預測。近年來,生物學家已開始使用機器學習來搜索潛在藥物化合物的龐大數據庫,以發現與特定靶標相互作用的分子。
這種方法的局限性在于,當所分析的數據與所訓練的數據相似時,算法表現良好,但它們對評估與已經見過的分子卻有很大不同的分子的能力卻不是很好。
為了克服這個問題,研究人員使用了一種稱為高斯過程的技術,將不確定性值分配給訓練算法所依據的數據。這樣,當模型分析訓練數據時,它們還考慮了這些預測的可靠性。
例如,如果進入模型的數據可以預測特定分子與目標蛋白質的結合強度以及這些預測的不確定性,則模型可以使用該信息對尚未進行的蛋白質-目標相互作用進行預測見過。該模型還估計其自身預測的確定性。在分析新數據時,對于與訓練數據完全不同的分子,模型的預測可能具有較低的確定性。研究人員可以使用這些信息來幫助他們確定要對哪些分子進行實驗測試。