Influxdata以開源時序型資料庫InfluxDB 3.0為基礎,開發分散式自託管儲存解決方案InfluxDB Clustered,用於取代原本的InfluxDB Enterprise。官方提到,InfluxDB Clustered的查詢效能為之前版本的45倍,儲存成本則可降低90%。

InfluxDB資料庫主要儲存時序性資料,被廣泛用於監控、物聯網裝置和即時分析等應用程式上,而InfluxDB 3.0是以Rust開發,並且建構在DataFusion、Parquet與Flight等Apache Arrow生態系軟體之上,因此與許多相關開源解決方案保有極高的互通性。

InfluxDB Clustered建構於Kubernetes容器技術之上,因此具有極高的靈活性和可擴展性,用戶可以隨意縮放InfluxDB Clustered叢集。InfluxDB Clustered能夠實現高速且大容量的分析,並在不影響效能的情況下處理高基數(High Cardinality)資料,也就是更快速地處理許多不重複數值,像是身分證字號或是手機號碼這類獨一無二的資料。官方解釋,因為InfluxDB Clustered的儲存與運算分離,因此用戶可以擴展需要的資料庫元件,以滿足特定資料應用的需求。

特別的是,InfluxDB Clustered擁有多個儲存層,擷取的資料會先進到熱儲存層,不需要等待這些最新資料匯集成批次,或是進行其他類型的預處理,就可被用戶立即查詢,官方表示,這樣的方法使查詢速度可達過去的45倍。結合熱儲存層與處理基數資料的能力,用戶便可以即時對大型資料集進行分析,而這過程皆不會降低資料庫效能。

冷儲存層則建構在較便宜的雲端物件儲存上,InfluxDB會將歷史資料從熱儲存層移動到冷儲存層進行儲存,而這便是InfluxDB Clustered能夠降低儲存成本90%的原因之一。另一個原因在於InfluxDB 3.0能夠更好地壓縮資料。

InfluxDB 3.0改採用欄式儲存方式,這代表每一欄的相似資料可以被獨立壓縮,進而達到更大的壓縮率。再來是InfluxDB使用Apache Parquet資料儲存格式,Parquet適合處理欄式資料,能夠運用字典編碼和長度編碼,更有效地壓縮重複值。更便宜的物件儲存和資料壓縮率,也就能夠讓用戶付出相同的成本儲存更多資料。

在安全性上,InfluxDB預設對傳輸資料進行加密,官方也提到,他們將會加入專有網路、單點登入、稽核日誌和高可用性等功能。InfluxDB Clustered與InfluxDB Cloud Serverless、InfluxDB Cloud Dedicated雲端產品不同,InfluxDB Clustered是一個自託管的產品,儲存在其中的資料由企業完全控制,可以符合特定產業或是法規要求。

熱門新聞

Advertisement