攝影/王若樸
AWS執行長Matt Garman在今年度re:Invent 2024技術年會中,宣布幾項雲端儲存服務Amazon S3的重要新功能,包括原生支援資料湖資料格式Iceberg的Amazon S3 Tables,大型資料表查詢速度可以提高3倍,以及能自動產生物件Metadata的Amazon S3 Metadata預覽版,這兩大新功能都是為因應AI需求而設計。
要讓雲端儲存服務貼近AI需求
在今日主題演講中,Matt Garman點出,運算、儲存、資料庫和AI推論,是AWS新戰略的4大重要基石。
就儲存來說,隨著新技術推陳出新,「儲存模式也改變了。」Matt Garman回顧,AWS最早推出Amazon S3雲端儲存服務,至今已有18年,擁有上百萬名使用者,處理了400兆個物件。Amazon S3服務在這18年間,也發展出幾代新服務,比如前幾年推出的S3 Intelligent-Tiering,能自動化協助處理PB級甚至是EB級的巨量資料,幫所有使用者省下了40億美元。
然而,「S3團隊一直在思考,如何讓S3更好。」Matt Garman指出,隨著AI越來越融入各行各業的業務,團隊後來聚焦,要讓S3更符合目前的AI需求。
如何讓雲端儲存服務貼近AI需求?Matt Garman解釋,S3專門用來執行資料湖,而AI分析大都仰賴資料湖。其中,絕大多數的分析資料是表格形式,用來查詢非常有效率,而這些資料表大多採Apache Parquet資料格式,「這類Parquet資料,也是S3中成長速度最快的資料類型。」
他進一步指出,有些S3客戶擁有數百萬、數十億的Parquet檔案,要有效率查詢這些資料,一種主流做法是使用Apache Iceberg資料表格式,來簡化資料湖中巨量資料集的資料處理。但,用Iceberg擴展管理巨量資料,還是很有挑戰性,甚至安全性、存取權限等管控也是難題。
2大新功能加速Iceberg資料查詢和交易量,還能自動產生Metadata
在今年年會中,AWS正式推出Amazon S3 Tables新功能,能3倍加速Iceberg表格的查詢效能,每秒還能提高10倍交易量。而且,該功能還能自動管理表維護工作,就算使用者的資料湖不斷擴展,也是如此。再來,S3 Tables還提供表格級存取控制,使用者可自己定義權限。
不過,「要找到所需資料,還是有挑戰性。」但要是有後設資料(Metadata)輔助,就能更好地找到所需資料,或是理解資料。
於是,AWS推出另一個儲存服務的新功能:Amazon S3 Metadata預覽版,能近乎即時,自動產生可供查詢的物件Metadata,來幫助使用者更快找尋資料、用於AI分析等。
熱門新聞
2025-01-03
2025-01-03
2025-01-03
2025-01-03
2025-01-03