IBM發佈一項新服務,讓化學家能運用AI進行逆合成分析(retrosynthesis),再透過雲端軟體自動將合成方法編寫成機器指令,遠端操控實驗室的機器來自動化合成新分子。

圖片來源: 

圖/IBM提供

IBM首次揭露一項結合AI、雲端及自動化技術的創新服務RoboRXN,主要用於化學實驗場域,來找出一種新興化學分子(molecule)的潛在製程。IBM蘇黎世研究院經理暨傑出研究員Teodoro Laino表示,這項技術已經實際用於COVID-19的新藥製程研究中,用來縮短新藥從研發到上市的時間,IBM也現場展示了新分子3-Bromobenzylamine的自動化合成過程,這是IBM今年4月找出的3,000種潛在治療藥物小分子之一,預計在年底揭露更多研究成果。

過去要發現一項新材料並成功上市,需要數年到數十年的時間,比如在研發尼龍(Nylon)這項材料時,花費了10年才正式投入市場,而研發維生素B12(vitamin B12)更是花了12年,所需的人力多達上百名,投入的成本更估計高達1,000萬美元。為了解決研發時間過長的問題,Teodoro Laino表示,IBM研發了RoboRXN技術,若結合超級電腦或量子電腦的運算力,就可能將新藥、新材料從研發到上市的時間縮短到1年,投入成本降至100萬美元,對於具有急迫性的新藥研究,能帶來更大的效益。

IBM提供了一個新藥化學合成全自動的雲端服務,化學家只要先上雲提供設計好或過去找出來的新型分子結構,這個平臺可以自動用AI模型,找出該分子結構最可能由那些常見的化學分子組成、及其合成步驟,也就是運用AI進行逆合成分析(retrosynthesis)的作法,再進一步,自動將合成方法轉換成控制指令,送給可遠端操控實驗室的機器,自動合成出這個新型分子,等於從分子結構分析、生產製程預測到最後真的生產出實際的化學成品,這套雲端服務可以全程自動化完成。

RoboRXN服務的雲端軟體介面。

這項技術的應用場景,在於當化學家提出了一種新穎的分子結構後,可以透過RoboRXN提供的逆合成分析技術,再不需人工干預的條件下,在幾秒鐘到幾分鐘之間,分析出該分子可以由哪些市售材料合成,甚至遠端操控機器來自動化合成。IBM蘇黎世研究院認知健康照護與生命科學領域的研究員Matteo Manica表示,這項技術並非用於找到新分子或新藥的結構,而是用來加速新分子製程研究。

靠AI預測新分子製程,就像分析蘋果派的原料與烹飪過程

IBM發表RoboRXN時,也進一步解釋了以AI進行逆合成分析的技術概念。

IBM蘇黎世研究院博士前研究員Philippe Schwaller指出,市面上有一些逆合成分析工具,仰賴專家手動訂定分析規則,這種基於規則來進行逆合成分析的方法,會隨著文獻資料量倍增,而逐漸不夠全面,因為專家的知識經驗也有限。換句話說,在軟體中手動添加規則的方式,反而侷限了逆合成分析的結果。

IBM蘇黎世研究院提出的論文指出,為了解決這個問題,許多專家近年來也提出了多種新分析方法,大致可歸納為基於圖形(Graph-based)或基於序列(Sequence-based)兩大類,而IBM正是採用了基於序列的方法,將化學反應的分子結構轉換為簡化分子線性輸入規範(SMILES)的表現形式,也就是將分子化合物及其合成分子,分別以文字序列來表示,如此一來,就能把「分子化合物由哪些分子合成?」的預測問題,視為自然語言(NL)問題,因為「分子化合物」對應到「哪些合成分子」的問題,就類似於「英文句子」對應到「哪句中文翻譯」的問題。

應用了這個概念,IBM設計了一組深度學習Seq2seq模型,藉此來預測出新分子所需的分子組合,就像是預測一個蘋果派用到的食材原料有哪些,比如切片蘋果、麵團、糖、蛋液、牛奶、肉桂等,而麵團又需要用奶油、麵粉來製作。

第一個AI模型,會預測新分子可能的組成成分。

接著,IBM也開發了第二個AI模型,基於第一個AI模型的分析結果(蘋果派原料),進一步找出其烹飪步驟,比如應加入哪些特定份量的食材、混合並攪拌均勻,再放入烤箱烘烤,控制烘烤溫度與時間,最後取出蘋果派完成製作。對應到分子的製程,則是透過AI模型,來預測新分子的合成步驟。

第二個AI模型,主要用於分析新分子的合成步驟。

而IBM應用於第二個AI模型的技術,更被刊登在科學期刊Nature Communications中,其中提到,第二個AI模型背後,IBM其實還預訓練了一個的NLP模型,以人工標註的方式來進行訓練與調教。這個NLP模型,能用來分析各論文、專利等非結構化的文本內容,從中自動萃取出中簡化的化學反應步驟,再以此來訓練第二個AI模型,使其擁有預測分子合成步驟的能力。

IBM蘇黎世研究院研究員Alain Vaucher指出,NLP模型的最大作用,就是將數百萬個文本內容,轉換為第二種AI模型容易學習的資料格式,再由第二個AI模型預測出一系列化學反應步驟,來指示機器或化學家執行。

第三個AI模型,也就是隱藏在第二個AI模型後的NLP模型,主要將文本資料內容轉換為標準化的資料格式,提供第二個AI模型使用。

Teodoro Laino也補充說明,AI模型的正確率取決於資料集的使用,比如IBM運用公開、可取得的通用化學反應資料集,所訓練的模型準確率可達90%,整個AI系統的訓練資料量更超過200萬筆。但這套AI模型也無法預測出所有分子的合成方法,遇到瓶頸時,使用者可以重新訓練AI,讓AI學習新的化學反應與合成方法,來提高模型表現。

自動將合成步驟轉譯為機器語言,雲端拋送指令給機器執行

經過AI預測出新分子的製程後,下一步,則是要將AI預測結果轉化為機器指令,來自動化合成新分子。為此,IBM也設計了一個硬體翻譯器,把人工可讀的合成步驟,自動轉換為機器可讀的格式,以此命令機器執行合成任務。

不過,目前自動化合成技術仍有局限,Teodoro Laino表示,從執行面來看,現有的合成技術侷限於不超過4~5個步驟的合成任務,過多步驟或涉及提純(purification)技術的步驟,目前仍無法支援。比如IBM發表會現場實際以3-Bromobenzylamine為例,來展示其自動化合成的過程,涉及的步驟僅有7項,以添加、混合、攪拌、冷卻、萃取及溫度控制等步驟為主。如下所示:

IBM發表會現場實際以3-Bromobenzylamine為例,來展示其自動化合成的過程,過程中僅花費1小時即合成完成。

位於IBM研究院中的自動化機器設備。

為了讓遍佈全球的化學家都能使用這項服務,IBM也將整套RoboRXN技術設計為雲端服務,讓分散各地的化學家,能在IBM化學平臺(IBM RXN for Chemistry)中共同協作,這項服務也尤其能在疫情期派上用場,讓研究員能不受在家工作的限制,持續透過雲端工具進行研究。

Teodoro Laino也提到,這套技術也能部署在用戶的私有雲中,可以讓有資安疑慮的研究單位在地部署。

熱門新聞

Advertisement