大資料技術Spark 釋出新1.6版效能大躍進,串流狀態管理速度快10倍

在2015年快速竄紅的大資料新興技術Spark,近日正式發布新版本Apache Spark 1.6,除了效能提升之外,新版增加了新資料集API和新的資料科學功能。Spark官方網站在昨天發布新版本,專門推動Spark,並由Spark創辦人所成立的Databricks公司,也在部落格上揭露這項消息,並宣布目前Spark貢獻者已經超過1000人,是2014年的2倍。

Spark 1.6包含了1000多個修補程式,3大主要功能包括效能改進、增加資料集API(Dataset API),以及新的資料科學功能。Databricks表示,根據2015年進行的Spark調查,發現超過9成使用者認為,提升效能是目前Spark最關鍵的方向,因此,新1.6版改善了Parquet性能、自動化記憶體管理,並將串流狀態管理速度更大幅提升了10倍。

此外,Spark 1.6新增了基於DataFrame的擴充元件Dataset API,相較於過去的RDD API,Dataset提供更好的記憶體管理效能,及較佳的長時間執行效能。此外,新的資料科學功能包括機器學習pipeline persistence,及新的演算法和功能,此版本增加了演算法的涵蓋範疇,如機器學習。

Spark 1.6的新演算法和功能:

  • univariate and bivariate statistics
  • survival analysis
  • normal equation for least squares
  • bisecting K-Means clustering
  • online hypothesis testing
  • Latent Dirichlet Allocation (LDA) in ML Pipelines
  • R-like statistics for GLMs
  • feature interactions in R formula
  • instance weights for GLMs
  • univariate and bivariate statistics in DataFrames
  • LIBSVM data source
  • non-standard JSON data

完整的1.6版功能介紹請見Spark官方網站Databricks官方部落格


更多 iThome相關內容

Advertisement