把化學合成逆向工程轉成NLU課題，IBM用AI加速找出新藥製程的關鍵

IBM發佈一項新服務，讓化學家能運用AI進行逆合成分析（retrosynthesis），再透過雲端軟體自動將合成方法編寫成機器指令，遠端操控實驗室的機器來自動化合成新分子。

圖片來源:

圖/IBM提供

IBM首次揭露一項結合AI、雲端及自動化技術的創新服務RoboRXN，主要用於化學實驗場域，來找出一種新興化學分子（molecule）的潛在製程。IBM蘇黎世研究院經理暨傑出研究員Teodoro Laino表示，這項技術已經實際用於COVID-19的新藥製程研究中，用來縮短新藥從研發到上市的時間，IBM也現場展示了新分子3-Bromobenzylamine的自動化合成過程，這是IBM今年4月找出的3,000種潛在治療藥物小分子之一，預計在年底揭露更多研究成果。

過去要發現一項新材料並成功上市，需要數年到數十年的時間，比如在研發尼龍（Nylon）這項材料時，花費了10年才正式投入市場，而研發維生素B12（vitamin B12）更是花了12年，所需的人力多達上百名，投入的成本更估計高達1,000萬美元。為了解決研發時間過長的問題，Teodoro Laino表示，IBM研發了RoboRXN技術，若結合超級電腦或量子電腦的運算力，就可能將新藥、新材料從研發到上市的時間縮短到1年，投入成本降至100萬美元，對於具有急迫性的新藥研究，能帶來更大的效益。

IBM提供了一個新藥化學合成全自動的雲端服務，化學家只要先上雲提供設計好或過去找出來的新型分子結構，這個平臺可以自動用AI模型，找出該分子結構最可能由那些常見的化學分子組成、及其合成步驟，也就是運用AI進行逆合成分析（retrosynthesis）的作法，再進一步，自動將合成方法轉換成控制指令，送給可遠端操控實驗室的機器，自動合成出這個新型分子，等於從分子結構分析、生產製程預測到最後真的生產出實際的化學成品，這套雲端服務可以全程自動化完成。

RoboRXN服務的雲端軟體介面。

這項技術的應用場景，在於當化學家提出了一種新穎的分子結構後，可以透過RoboRXN提供的逆合成分析技術，再不需人工干預的條件下，在幾秒鐘到幾分鐘之間，分析出該分子可以由哪些市售材料合成，甚至遠端操控機器來自動化合成。IBM蘇黎世研究院認知健康照護與生命科學領域的研究員Matteo Manica表示，這項技術並非用於找到新分子或新藥的結構，而是用來加速新分子製程研究。

靠AI預測新分子製程，就像分析蘋果派的原料與烹飪過程

IBM發表RoboRXN時，也進一步解釋了以AI進行逆合成分析的技術概念。

IBM蘇黎世研究院博士前研究員Philippe Schwaller指出，市面上有一些逆合成分析工具，仰賴專家手動訂定分析規則，這種基於規則來進行逆合成分析的方法，會隨著文獻資料量倍增，而逐漸不夠全面，因為專家的知識經驗也有限。換句話說，在軟體中手動添加規則的方式，反而侷限了逆合成分析的結果。

IBM蘇黎世研究院提出的論文指出，為了解決這個問題，許多專家近年來也提出了多種新分析方法，大致可歸納為基於圖形（Graph-based）或基於序列（Sequence-based）兩大類，而IBM正是採用了基於序列的方法，將化學反應的分子結構轉換為簡化分子線性輸入規範（SMILES）的表現形式，也就是將分子化合物及其合成分子，分別以文字序列來表示，如此一來，就能把「分子化合物由哪些分子合成？」的預測問題，視為自然語言（NL）問題，因為「分子化合物」對應到「哪些合成分子」的問題，就類似於「英文句子」對應到「哪句中文翻譯」的問題。

應用了這個概念，IBM設計了一組深度學習Seq2seq模型，藉此來預測出新分子所需的分子組合，就像是預測一個蘋果派用到的食材原料有哪些，比如切片蘋果、麵團、糖、蛋液、牛奶、肉桂等，而麵團又需要用奶油、麵粉來製作。

第一個AI模型，會預測新分子可能的組成成分。

接著，IBM也開發了第二個AI模型，基於第一個AI模型的分析結果（蘋果派原料），進一步找出其烹飪步驟，比如應加入哪些特定份量的食材、混合並攪拌均勻，再放入烤箱烘烤，控制烘烤溫度與時間，最後取出蘋果派完成製作。對應到分子的製程，則是透過AI模型，來預測新分子的合成步驟。

第二個AI模型，主要用於分析新分子的合成步驟。

而IBM應用於第二個AI模型的技術，更被刊登在科學期刊Nature Communications中，其中提到，第二個AI模型背後，IBM其實還預訓練了一個的NLP模型，以人工標註的方式來進行訓練與調教。這個NLP模型，能用來分析各論文、專利等非結構化的文本內容，從中自動萃取出中簡化的化學反應步驟，再以此來訓練第二個AI模型，使其擁有預測分子合成步驟的能力。

IBM蘇黎世研究院研究員Alain Vaucher指出，NLP模型的最大作用，就是將數百萬個文本內容，轉換為第二種AI模型容易學習的資料格式，再由第二個AI模型預測出一系列化學反應步驟，來指示機器或化學家執行。

第三個AI模型，也就是隱藏在第二個AI模型後的NLP模型，主要將文本資料內容轉換為標準化的資料格式，提供第二個AI模型使用。

Teodoro Laino也補充說明，AI模型的正確率取決於資料集的使用，比如IBM運用公開、可取得的通用化學反應資料集，所訓練的模型準確率可達90%，整個AI系統的訓練資料量更超過200萬筆。但這套AI模型也無法預測出所有分子的合成方法，遇到瓶頸時，使用者可以重新訓練AI，讓AI學習新的化學反應與合成方法，來提高模型表現。

自動將合成步驟轉譯為機器語言，雲端拋送指令給機器執行

經過AI預測出新分子的製程後，下一步，則是要將AI預測結果轉化為機器指令，來自動化合成新分子。為此，IBM也設計了一個硬體翻譯器，把人工可讀的合成步驟，自動轉換為機器可讀的格式，以此命令機器執行合成任務。

不過，目前自動化合成技術仍有局限，Teodoro Laino表示，從執行面來看，現有的合成技術侷限於不超過4～5個步驟的合成任務，過多步驟或涉及提純（purification）技術的步驟，目前仍無法支援。比如IBM發表會現場實際以3-Bromobenzylamine為例，來展示其自動化合成的過程，涉及的步驟僅有7項，以添加、混合、攪拌、冷卻、萃取及溫度控制等步驟為主。如下所示：

IBM發表會現場實際以3-Bromobenzylamine為例，來展示其自動化合成的過程，過程中僅花費1小時即合成完成。

位於IBM研究院中的自動化機器設備。

為了讓遍佈全球的化學家都能使用這項服務，IBM也將整套RoboRXN技術設計為雲端服務，讓分散各地的化學家，能在IBM化學平臺（IBM RXN for Chemistry）中共同協作，這項服務也尤其能在疫情期派上用場，讓研究員能不受在家工作的限制，持續透過雲端工具進行研究。

Teodoro Laino也提到，這套技術也能部署在用戶的私有雲中，可以讓有資安疑慮的研究單位在地部署。

靠AI預測新分子製程，就像分析蘋果派的原料與烹飪過程

自動將合成步驟轉譯為機器語言，雲端拋送指令給機器執行

熱門新聞