為因應AI需求,AWS執行長Matt Garman揭露Amazon S3儲存服務新功能,可自動為物件添加Metadata,讓使用者更容易在海量資料中找到所需資料,並進行AI分析、GAI應用等。

「生成式AI」是貫穿今年AWS re:Invent大會的關鍵字,也是AWS產品戰略的重要發展方向,就連主力產品線的儲存(Storage),也往這個方向創新。

AWS的主力雲端儲存服務是Amazon S3,誕生於2006年。在這18年間,S3發展出幾代新功能,比如前幾年推出的S3 Intelligent-Tiering,能分析使用者存取數據的模式,自動將物件搬移到合適的存取層,可處理的資料量級達到PB級,甚至是EB級,幫所有使用者省下了40億美元。

18年後的今天,Amazon S3擁有上百萬名使用者,處理了400兆個物件。但隨著新技術推陳出新,「儲存模式也改變了,」AWS執行長Matt Garman在大會中說:「S3團隊一直在思考,如何讓S3更好。」

他們觀察,AI應用越來越融入各行各業工作流程,S3團隊後來決定,要讓S3更符合目前的AI分析需求和生成式AI應用需求。

瞄準AI分析資料管理,強化Iceberg查詢效能

如何讓雲端儲存服務貼近這些需求?

首先,用於AI分析的資料,大都以開源的Apache Parquet檔案格式來儲存。這種格式的資料,查詢起來非常方便,「Parquet還是Amazon S3中成長速度最快的資料類型,」Matt Garman補充。

然而,有些S3企業用戶擁有數百萬、數十億的Parquet檔案,非常大量。要有效查詢這些巨量資料,一種常見方法是使用Apache Iceberg資料表格式,來簡化資料湖中巨量資料集的資料處理。但,用Iceberg擴展管理PB級甚至EB級的巨量資料,非常有挑戰性,甚至安全性、存取權限等管控也是一大難題,通常得有專業團隊輔助才行。

為解決企業在資料湖中查詢巨量資料的效率挑戰,AWS在今年度大會中宣布,正式推出Amazon S3 Tables新功能,不只能3倍加速Iceberg表格的查詢效能,每秒還能提高10倍交易處理量。

而且,該功能還能自動管理表維護工作,像是進行資料壓縮、快照管理等。就算企業使用者的資料湖規模持續擴大,該功能也能確保高效能的查詢和成本可控的儲存。

為物件自動添加Metadata,還能成為RAG參考

另一方面,隨著越來越多使用者把S3當作資料儲存庫,存放各種資料,「要找到所需的資料,變得很有挑戰性。」Matt Garman說明,要是有後設資料(Metadata)輔助,就能更好地找到所需資料,或是理解資料。

於是,AWS推出另一個儲存服務的新功能Amazon S3 Metadata預覽版,能近乎即時,自動產生可供查詢的物件Metadata,比如物件大小和來源,來幫助使用者更快找尋資料。

甚至,使用者可以客製化Metadata內容,來加註特別資訊,比如交易ID、內容評分等。使用者可以運用這些找到的資料,來進行AI分析、即時推論,或是生成式AI的檢索增強生成(RAG)資料來源,提供更好的GAI體驗。這就是AWS今年因應GAI需求的儲存策略。

 相關報導 

熱門新聞

Advertisement