| IT周報 | Spark | LLM | 生成式AI | OpenAI | Code Interpreter | 微軟 | AI技能 | AI
AI趨勢周報第220期:可用英文下指令,Databricks釋出大數據分析工具Spark英文版SDK
Databricks釋出Spark英文版SDK,使用者可用英文下指令來得到圖表等結果;OpenAI揭ChatGPT Plus專用新外掛Code Interpreter;微軟推AI工作技能計畫,聯手LinkedIn設計免費AI課程;ChatGPT API全面升級到GPT-4最新模型
2023-07-10
| Meta | Velox | Presto | Spark | TorchArrow | 資料
Meta開源可加速並簡化資料管理系統開發的統一執行引擎Velox
Velox為一個C++向量化資料庫加速函式庫,能夠最佳化查詢引擎以及資料處理系統
2022-09-05
| google | Spark | BigQuery | 無伺服器
Google雲端推無伺服器Spark服務,還可在BigQuery編輯程式碼無縫執行
Google推出無伺服器Spark服務,並且讓用戶可以透過雲端資料倉儲BigQuery,直接編寫程式碼並以Spark執行,降低Spark的使用障礙
2022-02-04
| Cloudera | Cloudera數據平臺 | Spark | RAPIDS | Nvidia | GPU
Cloudera數據平臺Spark工作開始支援GPU運算,讓ML資料前處理提高5倍執行效率
Cloudera近期在自家的數據平臺中,整合了可在GPU上加速Spark的開源函式庫RAPIDS,讓大多以CPU來執行的Spark工作負載能輔以GPU來執行,可提升ML資料前處理的速度達到5倍
2021-08-09
| Nvidia | Databricks | Spark | GPU
Nvidia與Databricks合作,讓Spark可用GPU加速模型訓練
在即將釋出的Spark 3.0將原生支援Nvidia GPU,可大幅提升ETL和模型訓練的執行效能
2020-05-17
Amazon EMR用戶現可使用Apache Hudi對單筆紀錄資料進行插入、更新和刪除。
2019-11-19
微軟開源自家Spark資料串流工作管線建置工具Data Accelerator
Data Accelerator能推斷輸入事件的結構,並以使用者設定的規則修改事件後,將資料寫出到輸出資料池
2019-04-22
| google | Cloud Dataproc | Hadoop | Spark
Google添加Cloud Dataproc可選元件,更完善支援自動化與先占式運算資源
Cloud Dataproc會在節點不可用時,留存其有狀態資料,可減緩虛擬機器搶占,而導致應用程式執行失敗的問題
2019-04-18
| google | GCP | Spark | Kubernetes
GCP推出Spark Operator,能在雲端以Kubernetes執行Apache Spark
Spark Operator支援Apache Spark 2.4,原生整合Kubernetes,能精細地管理Spark應用程式的生命周期。
2019-02-01
| Kubernetes | Spark | 效能優化 | Container | Hyperpilot | Docker | IT周報
Container周報第56期:大數據分析平臺Spark 2.3新版多了原生K8s支援
Spark在2.3新版中,開始原生支援Kubernetes,可以直接在一個現成Kubernetes 1.7以上版本部署的容器叢集中,執行Spark運算工作
2018-03-19
| Spark | 資料科學 | Data Science
IBM近期推出Data Science Experience的大數據應用解決方案,以Spark大數據運算處理框架為基礎,搭配多種開放原始碼的資料分析、儲存、運算叢集軟體,提供整合式工作平臺
2017-10-31