大資料技術Spark 釋出新1.6版效能大躍進,串流狀態管理速度快10倍
在2015年快速竄紅的大資料新興技術Spark,近日正式發布新版本Apache Spark 1.6,除了效能提升之外,新版增加了新資料集API和新的資料科學功能。Spark官方網站在昨天發布新版本,專門推動Spark,並由Spark創辦人所成立的Databricks公司,也在部落格上揭露這項消息,並宣布目前Spark貢獻者已經超過1000人,是2014年的2倍。
Spark 1.6包含了1000多個修補程式,3大主要功能包括效能改進、增加資料集API(Dataset API),以及新的資料科學功能。Databricks表示,根據2015年進行的Spark調查,發現超過9成使用者認為,提升效能是目前Spark最關鍵的方向,因此,新1.6版改善了Parquet性能、自動化記憶體管理,並將串流狀態管理速度更大幅提升了10倍。
此外,Spark 1.6新增了基於DataFrame的擴充元件Dataset API,相較於過去的RDD API,Dataset提供更好的記憶體管理效能,及較佳的長時間執行效能。此外,新的資料科學功能包括機器學習pipeline persistence,及新的演算法和功能,此版本增加了演算法的涵蓋範疇,如機器學習。
Spark 1.6的新演算法和功能:
- univariate and bivariate statistics
- survival analysis
- normal equation for least squares
- bisecting K-Means clustering
- online hypothesis testing
- Latent Dirichlet Allocation (LDA) in ML Pipelines
- R-like statistics for GLMs
- feature interactions in R formula
- instance weights for GLMs
- univariate and bivariate statistics in DataFrames
- LIBSVM data source
- non-standard JSON data
完整的1.6版功能介紹請見Spark官方網站及Databricks官方部落格