Apache Spark在Databricks上
本文描述了Apache Spark如何與Databricks和Databricks Lakehouse平台相關聯。Beplay体育安卓版本
Apache Spark是Databricks湖屋平台的核心,是平台上計算集群和SQL倉庫的技術支持。Beplay体育安卓版本Databricks是Apache Spark的優化平Beplay体育安卓版本台,為運行Apache Spark工作負載提供了一個高效、簡單的平台。
Apache Spark和Databricks是什麼關係?
Databricks公司是由Apache Spark的最初創建者創建的。作為一個開源軟件項目,Apache Spark具有來自許多頂級公司的提交者,包括Databricks。
Databricks繼續向Apache Spark開發和發布特性。Databricks運行時包含額外的優化和私有特性,這些特性構建在Apache Spark之上並對其進行了擴展,包括光子它是用c++重寫的Apache Spark的優化版本。
Apache Spark如何在Databricks上工作?
每當在Databricks上部署計算集群或SQL倉庫時,都會配置Apache Spark並將其部署到虛擬機。您不需要擔心配置或初始化Spark上下文或Spark會話,因為這些都是由Databricks為您管理的。
我可以不使用Apache Spark而使用Databricks嗎?
Databricks支持各種工作負載,並在Databricks運行時中包含許多其他開放源碼庫。Databricks SQL在底層使用Apache Spark,但最終用戶使用標準的SQL語法來創建和查詢數據庫對象。
Databricks機器學習運行時針對ML工作負載進行了優化,許多數據科學家在Databricks工作時使用主要的開源庫,如TensorFlow和SciKit Learn。你可以用工作流在Databricks部署和管理的計算資源上調度任意工作負載。