【AWS GAI戰略3】加速資料表查詢和10倍交易量，滿足GAI資料查詢需求

為因應AI需求，AWS執行長Matt Garman揭露Amazon S3儲存服務新功能，可自動為物件添加Metadata，讓使用者更容易在海量資料中找到所需資料，並進行AI分析、GAI應用等。

「生成式AI」是貫穿今年AWS re:Invent大會的關鍵字，也是AWS產品戰略的重要發展方向，就連主力產品線的儲存（Storage），也往這個方向創新。

AWS的主力雲端儲存服務是Amazon S3，誕生於2006年。在這18年間，S3發展出幾代新功能，比如前幾年推出的S3 Intelligent-Tiering，能分析使用者存取數據的模式，自動將物件搬移到合適的存取層，可處理的資料量級達到PB級，甚至是EB級，幫所有使用者省下了40億美元。

18年後的今天，Amazon S3擁有上百萬名使用者，處理了400兆個物件。但隨著新技術推陳出新，「儲存模式也改變了，」AWS執行長Matt Garman在大會中說：「S3團隊一直在思考，如何讓S3更好。」

他們觀察，AI應用越來越融入各行各業工作流程，S3團隊後來決定，要讓S3更符合目前的AI分析需求和生成式AI應用需求。

瞄準AI分析資料管理，強化Iceberg查詢效能

如何讓雲端儲存服務貼近這些需求？

首先，用於AI分析的資料，大都以開源的Apache Parquet檔案格式來儲存。這種格式的資料，查詢起來非常方便，「Parquet還是Amazon S3中成長速度最快的資料類型，」Matt Garman補充。

然而，有些S3企業用戶擁有數百萬、數十億的Parquet檔案，非常大量。要有效查詢這些巨量資料，一種常見方法是使用Apache Iceberg資料表格式，來簡化資料湖中巨量資料集的資料處理。但，用Iceberg擴展管理PB級甚至EB級的巨量資料，非常有挑戰性，甚至安全性、存取權限等管控也是一大難題，通常得有專業團隊輔助才行。

為解決企業在資料湖中查詢巨量資料的效率挑戰，AWS在今年度大會中宣布，正式推出Amazon S3 Tables新功能，不只能3倍加速Iceberg表格的查詢效能，每秒還能提高10倍交易處理量。

而且，該功能還能自動管理表維護工作，像是進行資料壓縮、快照管理等。就算企業使用者的資料湖規模持續擴大，該功能也能確保高效能的查詢和成本可控的儲存。

為物件自動添加Metadata，還能成為RAG參考

另一方面，隨著越來越多使用者把S3當作資料儲存庫，存放各種資料，「要找到所需的資料，變得很有挑戰性。」Matt Garman說明，要是有後設資料（Metadata）輔助，就能更好地找到所需資料，或是理解資料。

於是，AWS推出另一個儲存服務的新功能Amazon S3 Metadata預覽版，能近乎即時，自動產生可供查詢的物件Metadata，比如物件大小和來源，來幫助使用者更快找尋資料。

甚至，使用者可以客製化Metadata內容，來加註特別資訊，比如交易ID、內容評分等。使用者可以運用這些找到的資料，來進行AI分析、即時推論，或是生成式AI的檢索增強生成（RAG）資料來源，提供更好的GAI體驗。這就是AWS今年因應GAI需求的儲存策略。

相關報導

熱門新聞