今年AWS雲端資料倉儲服務Redshift推出正式滿10周年,但在這個特別的一年,AWS在年度大會上卻一反常態,沒有發布重大升級更新。取而代之的是,AWS在會中推出許多新功能,都是和Redshift相關,從更緊密資料整合、串流資料分析到強化安全存取。儘管看似都是些小更新,但AWS沒說的是,藏在Redshift這次更新背後的更大企圖,就是要把Redshift打造成企業資料集散地,來符合各種現代化應用的使用,以及能匯整各種類型資料,提供AI分析和後續應用,更要讓這個能夠通吃各種資料類型的新一代資料倉儲架構,成為加速企業資料現代化的關鍵產品。
要讓Redshift成為通吃各種資料類型的新一代資料倉儲架構
AWS數據和機器學習副總裁Swami Sivasubramanian在數據主題演講中指出:「所有新功能都瞄準同一個終極目的,不管資料在哪裡都可以集中到Redshift上來分析。」顯然,AWS就是壓寶Redshift,未來能夠成為企業資料的核心。
Redshift是第一個採用MPP(大量平行處理)架構的雲端資料倉儲,號稱比本地部署能以更經濟高效的方式對大量數據進行快速分析及查詢,並提供跨資料倉儲、核心資料庫和資料湖分析結構化和半結構化資料執行SQL查詢,更具有高擴充彈性,Redshift Serverless在今年7月正式GA,讓雲端資料倉儲也能應付資料量多變的資料分析任務。目前,上萬家企業使用Redshift,每天處理資料總量達到EB級。
但要打造Redshift成為企業統一的資料集散地,只是這樣還不夠。從今年功能更新來看,AWS對資料倉儲布局更加完整,正一步步打通Redshift服務在企業資料架構中的各環節,讓它的產品完整度更高,涵蓋到不同應用層面,支援各種企業分析需求和資料整合。
AWS今年推出的第一個新功能,就是將資料前處理ETL步驟簡化,甚至全面Zero-ETL化。ETL指的是資料萃取、轉置、載入的過程,以往企業會使用這個方式將多系統中的資料整合到單一資料倉儲中,以便進行分析和後續處理,過去Redshift要從其他資料庫、資料湖拿取資料,都得執行ETL程序,但如此一來,資料分析就會太慢,甚至針對不同資料來源或資料類型,就需要建立不同ETL流程,更不利於後續維護。直到現在才解決。
靠Zero-ETL化,解決Redshift跨資料庫資料整合的痛點
AWS推出Aurora Zero-ETL integration with Amazon Redshift這個新功能,結合Zero-ETL做法,讓Aurora資料庫中儲存的結構化資料可以自動匯進Redshift,不需要建立和維護複雜的資料處理流程,來執行ETL操作。因為可以將資料同步時間縮短到幾秒內,這意謂著,企業可以更快從Aurora資料庫取得所需資料,進行後續分析,還能執行如ML進階分析、具體檢視圖、資料共享以及聯邦查詢等,並從這些綜合資料分析中獲得整體的洞察。
不僅如此,Redshift還新增自動複製功能,讓S3資料湖和Redshift之間更加緊密整合,使用者從S3中將資料複製到Redshift中,只要一鍵就能完成所有操作,不像以前多使用S3來做備份,需要特別分析才將資料放進Redshift。
有了這個新功能以後,以後只要偵測到S3資料夾有更新檔案,就會自動執行Redshift複製任務,等於是從S3就能直通到Redshift資料倉儲,就能大大簡化資料複製流程。對於資料分析人員來說,只要從Redshift就能拿到各種類型的S3資料,而且能支援不同檔案格式,如CSV、parquet檔或其他文字檔。不過目前還是預覽版。
不只能更快取用AWS資料,對於第三方資料整合與分析,AWS推出了名為Informatica Data Loader的免費資料整合工具,只要透過Redshift控制臺,就能將第三方資料檔案快速上傳至Redshift,目前可以支援Salesforce、Marketo在內等超過30個原始資料源,可跨多種資料格式在Redshift中執行高速且大量的資料上傳作業。
雲端串流資料的整合,也是Redshift這波更新一大重點,整合Kinesis Data Streams和Amazon MSK兩大資料串流引擎,強化Redshift對於串流資料擷取的支援能力,使企業在取得串流資料時,不需要像以往得先將資料暫存到S3中,隔段時間後,再將整批數據載入到Redshift中,導致串流分析的速度變慢。現在就沒有這個問題,所有串流資料都能接近即時匯入到Redshift資料倉儲中。
甚至,AWS對於資料倉儲的布局,如今也直接整合串流大數據分析領域的主流平臺Spark。借助Amazon Redshift Integration for Apache Spark這個新功能,企業以後在Redshift和無伺服器Redshift服務上執行Spark應用變得更簡單,不像過往使用Amazon EMR、SageMaker以及AWS Glue服務執行Spark應用時,需透過第三方Spark連接器才能讀寫Redshift資料,現在只要透過預先打包好的Redshift Connector for Spark工具,就能迅速取得Redshift資料,甚至啟用速度比起傳統快10倍,還能支援Java、Python、Scala等語言編寫Spark應用程式。這也意味著,將可擴大資料倉儲在串流分析大數據應用範圍。
資料隱私和治理獲得大幅強化
資料管控更是Redshift資料倉儲要能夠通吃各種資料類型成為統一的資料集散地的關鍵。
在今年更新中,AWS也大幅強化了Redshift的安全與可靠性。在安全性上,AWS推出兩項存取控管新功能,前者是動態資料遮罩(Dynamic Data Masking)預覽功能,這是資料保護常見的功能,現在AWS把這項能力放進Redshift中,強化資料隱私和處理。基於該功能,使用者從SQL查詢結果中就只會看到篩選過濾後的內容,對涉及敏感性個資或其他機敏資料就會進行遮敝或模糊化處理,沒有賦予權限的使用者就看不到,防止敏感性資料遭違法蒐集和利用,以確保合乎隱私的要求。
後者則是Lake Formation-managed Redshift datashares功能,AWS讓企業也能利用資料湖管理工具Lake Formation管理Redshift的資料共享權限,透過這個集中式管理方式,企業就能使用更精細的存取控制,設定不同角色的資料共享權限,也能確保在不同AWS帳戶或跨區域中,都能安全地共用Redshift叢集即時資料。目前同樣推出預覽板。
AWS推出最後一項新功能,則是可以提高Redshift服務可用性。Redshit新增Multi-AZ功能,讓企業可以在多個可用區部署Redshift,藉此可以達到跟其他AWS資料庫服務一樣具備高可用,來確保服務可以全天運作不停機,避免一旦服務中斷,企業就沒辦法透過它提供預測或協助高層加快決策,導致可能造成營運損失的風險。 除了可以Redshift RA3實例將數據儲存在Redshift Managed Storage中,也支援常見的災難復原功能,如自動備份、故障轉移等。
熱門新聞
2025-01-20
2025-01-20
2025-01-20
2025-01-20
2025-01-20