Influxdata推出大幅改進效率和成本的分散式時序資料庫InfluxDB Clustered

Influxdata以開源時序型資料庫InfluxDB 3.0為基礎，開發分散式自託管儲存解決方案InfluxDB Clustered，用於取代原本的InfluxDB Enterprise。官方提到，InfluxDB Clustered的查詢效能為之前版本的45倍，儲存成本則可降低90％。

InfluxDB資料庫主要儲存時序性資料，被廣泛用於監控、物聯網裝置和即時分析等應用程式上，而InfluxDB 3.0是以Rust開發，並且建構在DataFusion、Parquet與Flight等Apache Arrow生態系軟體之上，因此與許多相關開源解決方案保有極高的互通性。

InfluxDB Clustered建構於Kubernetes容器技術之上，因此具有極高的靈活性和可擴展性，用戶可以隨意縮放InfluxDB Clustered叢集。InfluxDB Clustered能夠實現高速且大容量的分析，並在不影響效能的情況下處理高基數（High Cardinality）資料，也就是更快速地處理許多不重複數值，像是身分證字號或是手機號碼這類獨一無二的資料。官方解釋，因為InfluxDB Clustered的儲存與運算分離，因此用戶可以擴展需要的資料庫元件，以滿足特定資料應用的需求。

特別的是，InfluxDB Clustered擁有多個儲存層，擷取的資料會先進到熱儲存層，不需要等待這些最新資料匯集成批次，或是進行其他類型的預處理，就可被用戶立即查詢，官方表示，這樣的方法使查詢速度可達過去的45倍。結合熱儲存層與處理基數資料的能力，用戶便可以即時對大型資料集進行分析，而這過程皆不會降低資料庫效能。

冷儲存層則建構在較便宜的雲端物件儲存上，InfluxDB會將歷史資料從熱儲存層移動到冷儲存層進行儲存，而這便是InfluxDB Clustered能夠降低儲存成本90％的原因之一。另一個原因在於InfluxDB 3.0能夠更好地壓縮資料。

InfluxDB 3.0改採用欄式儲存方式，這代表每一欄的相似資料可以被獨立壓縮，進而達到更大的壓縮率。再來是InfluxDB使用Apache Parquet資料儲存格式，Parquet適合處理欄式資料，能夠運用字典編碼和長度編碼，更有效地壓縮重複值。更便宜的物件儲存和資料壓縮率，也就能夠讓用戶付出相同的成本儲存更多資料。

在安全性上，InfluxDB預設對傳輸資料進行加密，官方也提到，他們將會加入專有網路、單點登入、稽核日誌和高可用性等功能。InfluxDB Clustered與InfluxDB Cloud Serverless、InfluxDB Cloud Dedicated雲端產品不同，InfluxDB Clustered是一個自託管的產品，儲存在其中的資料由企業完全控制，可以符合特定產業或是法規要求。

熱門新聞