台大公衛學院盧子彬副教授發展DNA插補伺服器研究疾病

台大公衛學院盧子彬副教授發展DNA插補伺服器研究疾病

基因研究者在進行基因序列分析時,往往會遇到缺失資料(missing data)的狀況,尤其當基因資料樣本數日趨龐大時,基因型插補(genotype imputation)更是不可或缺。透過基因型插補,以參考基因組推估、插補遺漏的資料,能夠提高基因研究易感性分析的正確率。然而,儘管市面上已有開源的基因插補工具,伺服器及基因資料卻多來自國外,不一定符合台灣在地的需求,台大公衛學院盧子彬副教授因此起心動念,希望開發一個本土的基因插補運算系統。

在微軟AI for Health計劃贊助下,盧子彬副教授的研究團隊從SNP資料,結合ATGC的變異與疾病、藥物及治療的相關性,開發了一個伺服器加速基因插補運算,欲找到與疾病相關的特殊基因位點,以便篩檢高風險人士,提早因應預防。

舉例而言,在疾病的控制上,膽固醇問題跟基因是相關的,透過基因檢測可以預警潛在病人改變運動和飲食習慣。而在免疫方面,DNA位點跟免疫HLA的改變是否有關連性,如何在位點找到抗原,幫助疾病治療或開發癌症疫苗,做到精準醫療,也是GWAS(全基因組關聯分析)研究關注的焦點。

透過基因型插補,可以大幅增加找到的基因位點,使插補校正後的位點成百倍增加。基因位點越多越有機會發現重要的位置,甚至發現「罕見變項」,即雖然數量很少,但一旦出現便可能與疾病有關的位點。

進行基因型插補時,研究者需要先取得SNP數據,進行品質控制,透過演算法將資料標準化,以進行平行性分析,完成前置步驟後,才進入基因插補的重頭戲。盧子彬副教授的團隊
開發的平台不僅整合基因插補過程所需的軟體,系統跑出來的資料準確度也堪比國外知名的密西根插補伺服器,讓使用者能直接在系統進行快速簡易的操作。插補的資料從網路下載,如果使用者要自行上傳或定義對照資料,會有許多計算上的操作,要仰賴資訊專業協助,所以在程式裡也設定好一些對照資料供選擇下載。研究者也可選擇跑所有染色體或選擇特定部份。跑完插補,就會得到一個VCF檔案,原本六十萬個位點就會變六千萬個位點,顯示每個確切的ATCG大概是什麼。

進行運算時,插補一個染色體1,放400個樣本,伺服器要跑28小時,如果樣本數50萬,依序跑各染色體,時間將會是天文數字。但用程式點選以平行化、分批、切割處理,就能大幅省時。盧子彬副教授的團隊開發的系統,借力微軟Azure雲端高速運算,實現平行化運算,還可以讓使用者建立自己的基因對照資料,加速基因研究的進展。

想更了解盧子彬副教授團隊的研究,歡迎觀賞:https://youtu.be/vZ6-S-y7gx

 

Microsoft

熱門新聞

Advertisement