圖片來源: 

攝影李宗翰

【美國拉斯維加斯現場報導】在今年的re:Invent大會上,AWS針對資料儲存與資料庫應用,針對物件儲存服務S3和資料倉儲服務RedShift均新增了新的特色和服務,大幅強化安全性與效能,同時,也針對Elasticsearch和Cassandra這兩套NoSQL資料庫,分別推出成本更低的儲存層級與代管服務。

加強與簡化S3的存取控管

以S3來說,AWS執行長Andy Jessy在大會第二天的主題演講當中,宣布推出S3 Access Points的功能,可簡化應用程式對於S3資料存取方式的管理,用戶可以更容易管理S3環境當中每個儲存桶(bucket)的數百個存取點,針對應用程式自定名稱與存取權限許可,這麼一來,不只是為共用資料集的存取提供新的方法,針對共享S3資料桶存取方法的建立與維護,也能更為便利。

在存取控管政策的制定上,S3 Access Points能讓用戶透過前置字元和物件標籤來強制施行許可,因此可限制物件資料的存取。而且,這項功能可將S3資料存取的範圍,局限在AWS的VPC到防火牆之間,而當中提供的Service Control Policies,也能用於確保所有存取點都在限用的VPC當中。

企業資料倉儲上雲需求日增,提升延展性、查詢效能與降低操作難度是資料分析應用改善的重點

針對資料庫類型的雲端應用需求,往年AWS發表的重點都是資料庫服務Aurora,今年很特別,主角換成資料庫倉儲服務RedShift,這套2012年問世的雲端服務,在Aurora問世之前,曾經是AWS成長速度最快的業務,今年終於換它獨領風騷。

AWS本次發表了幾項服務都跟RedShift有關。首先是名為RedShift RA3 with Managed Storage的執行個體本週正式推出,能讓用戶個別擴展執行個體的運算資源與儲存資源,而在這樣的擴充彈性之下,若相較於其他雲端資料倉儲,RA3的效能領先幅度可達到3倍。AWS也公布多家採用這項服務的公司,像是語言學習平臺公司Duolingo、商家評論網站公司Yelp、儲存裝置廠商Western Digital、電信業者NTT DOCOMO、傳媒集團福斯公司(FOX Corporation)。

所謂的個別擴展,是指用戶可以根據資料倉儲的工作負載效能需求,來選擇執行個體的數量;而在儲存空間的費用上,也只需要支付目前用到AWS代管儲存的容量,目前在每一個RA3執行個體搭配的RedShift Managed Storage,使用的是大容量、高效能的固態硬碟,作為本機儲存空間,以及S3作為長期、高耐用度的儲存空間。如果執行個體當中的資料超過本機儲存的容量,RedShift Managed Storage會自動將資料卸載到S3,但不論資料位於本機儲存或S3,用戶僅需支付RedShift Managed Storage的費率,以及RA3使用的本機儲存容量費用。

另一方面,RA3執行個體本身是建構在AWS Nitro System之上,而具有相當高的網路頻寬(100 Gb/s),可進一步減少資料卸載至S3或從S3取回的時間。目前在執行個體的供應上,AWS本週已經開放租用16xlarge(ra3.16xlarge)的服務項目,可支援8PB已壓縮資料的工作負載,到了2020年初,RA3將提供4xlarge。

接下來是與加速資料倉儲查詢有關的進階查詢加速器(Advanced Query Accelerator,AQUA),這項服務稱為AQUA for Amazon Redshift,預計在2020年中正式登場,這項服務能夠為RedShift提供分散式硬體加速快取,與其他雲端業者提供的資料倉儲服務相比,在查詢作業的效能上,改善的幅度可達到10倍之多。目前已採用該項服務的企業,有財務軟體廠商Intuit,以及福斯公司。

之所以能夠提供如此大的效能提升,在於AQUA能將運算層帶到儲存層,因此用戶不需在兩者之間來回搬移,它是建在S3之上的高速快取架構,能夠橫向跨展多個節點,並且在這些節點之間進行平行的資料處理,而且每個節點都擁有一套硬體模組,當中採用了AWS設計的分析處理器,能夠大幅加速資料的壓縮、加密,以及過濾、匯聚等資料處理作業。相較於其他雲端資料倉儲存服務讓用戶直接查詢原始資料,這套架構可提供更快的資料查詢速度,以及更大的規模擴展能力,能讓用戶獲得即時反應效果更佳的儀表板,以及縮短開發時間、易於維護系統等功效。

此外,這套架構也相容於現行版本的RedShift,用戶可將既有的資料倉儲遷移過去,不需要修改程式碼。

另一個與資料倉儲相關的功能是聯邦查詢,稱為Redshift Federated Query,用戶分析資料的範圍,可橫跨多個AWS雲端服務,包括資料倉儲(RedShift)、物件儲存(S3)、關聯式資料庫(RDS、Aurora),目前AWS已經開始提供這項服務的預覽版本,而先行採用的企業則有福斯公司、網路安全公司Sophos。

基於這項服務,用戶可運用熟悉的SQL語法敘述,即能橫跨多種資料儲存來結合所有資料,進而簡化應用程式開發方式。有了聯邦查詢,RedShift查詢也能存取這些作業型的資料庫系統,提供更為即時與更新的資料,近來帶來更理想的分析與決策支援。當然,這樣的作法也對效能帶來極大的挑戰,對此RedShift query Optimizer會進行智慧型的大規模分散式處理,以便服務底層的資料庫。

而在橫跨不同資料儲存的應用上,AWS本週也正式推出RedShift Data Lake Expert的服務,目前Warner Bros已採用該項服務。

用戶可將RedShift資料直接匯出到S3,而這些數據所採用的形態,會是針對分析應用最佳化的開放資料格式Apache Parquet。如此一來,用戶能夠把他們在RedShift完成的查詢結果,以開放格式儲存到S3資料湖當中,接下來,就可以運用AWS其他服務,像是SageMaker、Athena、EMR,來進行後續的資料分析。綜觀現在市面上的雲端資料倉儲服務,AWS認為並無其他業者可提供如此簡便的方法,能讓用戶查詢資料的同時,又能將資料以開放格式回寫至資料湖。

針對NoSQL資料庫的應用,提供較低儲存成本與更多系統的選擇

強化對NoSQL資料庫的支援,也是AWS今年用戶大會在資料分析領域的發布重點。首先,是針對Amazon Elasticsearch Service,提供了暖儲存服務(Warm Storage Service),稱為UltraWarm,目前開放預覽版本試用。這項新的儲存層級,能為現行的Elasticsearch Service用戶,提供儲存成本減少9成的新選項,相較於其他代管式Elasticsearch服務提供的暖儲存,也有儲存成本減少8成的競爭優勢,因此,若要在雲端Elasticsearch服務保存大量的現行與歷史記錄資料,搭配AWS專為該項服務的暖儲存,在費用負擔上,都將更為輕鬆。目前宣布採用該項服務公司,主要是家庭族譜與基因檢測公司Ancestry。

在實際運作上,UltraWarm能針對經常存取的資料,提供分散式快取,這裡面運用了進階資料存放位置管理技術,能夠判斷較少存取的資料區塊,並將它們搬移到S3快取之外;而且,這項服務也採用高效能的EC2執行個體,以便於與存放在S3的資料進行互動。基於上述的架構,能促使UltraWarm的查詢速度比其他暖儲存解決方案快上50%,同時,用戶在面對所有記錄資料時,還能保有相同的互動式分析體驗。

以目前AWS公布的規格來看,有了UltraWarm,用戶在單一Elasticsearch Service的叢集之中,最多可管理3PB的記錄資料,並且能夠橫跨多個叢集進行查詢,因此,可以更有效地保存現行與過往記錄資料,便於互動式作業型分析與圖表式呈現結果──在使用體驗上,用戶可以透過Kibana這套軟體提供使用者介面,輕鬆查詢與呈現近期與長期的作業資料,因此,不論是開發人員、DevOps工程師、資安專家,均可更簡便地使用AWS Elasticsearch Service,分析短期與長期的作業資料,而不需大費周章,從S3或Glacier存放的歸檔資料當中,將資料復原到Elasticsearch叢集當中,轉為主動、可搜尋的狀態,才能開始著手查詢,這一來一往之間,可能就要好幾天的功夫。

除了Elasticsearch的應用,AWS今年還推出另一套關於Apache Cassandra資料庫的完全代管服務,稱為Amazon Managed Apache Cassandra Service(MCS)。在這套雲端服務之中,開發人員可以繼續沿用與Apache Cassandra相同的程式碼(相容於Cassandra 3.11)、符合Apache 2.0授權的驅動程式,以及現今所用的工具,以便執行、管理與擴展Cassandra資料庫的工作負載,而且,用戶可省去維護資料庫系統底層IT基礎架構的負擔。

目前有哪些企業可能有意採用對這項服務?AWS列出了幾家公司,像是速食業者麥當勞,以及軟體廠商Adobe、Pegasystems、Reltio。

在實際運作上,由於這套資料庫代管服務本身採用無伺服器(Serverless)的架構,所以用戶毋須自行建立、設定與操作大型Cassandra叢集環境──因此,當資料庫流量規模變大或縮小時,用戶不必手動增減節點,以及針對多個資料庫分割區執行重新平衡的處理。

關於服務的效能保證,也是MCS的賣點之一,不論任何大小的執行規模,AWS提供給用戶的性能水準是低於10毫秒的延遲,系統會根據應用程式實際的流量,自動擴張或縮小資料表的規模,並以虛擬的方式提供無上限的網路吞吐量與儲存容量。

MCS這套服務的計費方式,未來也會擴增更多選項。以目前AWS提供的選擇而言,會隨用戶所需的服務容量而計價(on-demand capacity mode)──用戶僅支付應用程式使用的資源。到了2020年初,這套資料庫代管服務將提供預先配置容量(provisioned capacity)的選擇,讓用戶指定每個工作負載所需的服務容量,以便控管相關費用支出。

若是用戶在自建IT環境或AWS的EC2雲端服務,已有正在使用的Cassandra資料表,屆時也可以透過AWS移轉工具,搬遷到MCS。

 

熱門新聞

Advertisement