AWS現在開源能夠處理PB級基因組資料的工具Amazon Genomics CLI,用戶可以將這個工具與目前公開可用的工作流程工具一起使用,並在這些基礎上執行基因分析。

DNA雙股螺旋結構由一串鹼基對組成,完整的鹼基對序列可能很長,像是人類基因組就由超過30億個鹼基對組成,基因組資料可被用來追蹤傳染病、病原體,或是改進疾病診斷。要存取基因組資料,必須先進行基因組定序,由於技術的發展,科學家開始可以對大量個體進行測序,速度和成本效益都比過去更高。

而要分析這些基因組資料,需要使用各種工具,這些工具會被安排為特定步驟或是工作流程,科學家為了促進工作流程的開發、共享和執行,因此生物資訊社群開發了專門的工作流程定義語言,像是WDL、Nextflow、CWL和Snakemake。

而這個過程會產生PB級的原始基因組資料,要快速處理資料並獲得答案,便需要配置運算、儲存和網路等雲端資源,和分析工具一同運作,因此科學家也就必需要花費額外的時間部署基礎設施,並且修改開源基因分析工具。

Amazon Genomics CLI供科學家能在AWS上處理PB級的基因資料,而且透過開源,用戶也就能更方便地與其他公共工作流程工具一並使用。

Amazon Genomics CLI藉由簡化和自動化雲端基礎設施部署,讓用戶可以使用命令列介面,在AWS上快速配置和運作基因組學工作流程,該命令列工具改進基因組學工作流程引擎,使其能夠更簡單地和AWS整合,消除手動修改開源工具,和調校以供大規模運作,所帶來的額外工作。

而且該工具能夠減少像是儲存、運算容量、部署基因組學工作流程引擎,以及工作流程叢集的耗時配置工作,同時,也能與ECS、EFS或S3等服務無縫整合,並最佳化資源使用成本。

Amazon Genomics CLI現在是一個開源工具,用戶可以在所有AWS地區使用,除了美國AWS GovCloud和中國地區除外。


熱門新聞

Advertisement