Apache Spark在Databricks上

本文描述了Apache Spark如何與Databricks和Databricks Lakehouse平台相關聯。Beplay体育安卓版本

Apache Spark是Databricks湖屋平台的核心,是平台上計算集群和SQL倉庫的技術支持。Beplay体育安卓版本Databricks是Apache Spark的優化平Beplay体育安卓版本台,為運行Apache Spark工作負載提供了一個高效、簡單的平台。

Apache Spark和Databricks是什麼關係?

Databricks公司是由Apache Spark的最初創建者創建的。作為一個開源軟件項目,Apache Spark具有來自許多頂級公司的提交者,包括Databricks。

Databricks繼續向Apache Spark開發和發布特性。Databricks運行時包含額外的優化和私有特性,這些特性構建在Apache Spark之上並對其進行了擴展,包括光子它是用c++重寫的Apache Spark的優化版本。

Apache Spark如何在Databricks上工作?

每當在Databricks上部署計算集群或SQL倉庫時,都會配置Apache Spark並將其部署到虛擬機。您不需要擔心配置或初始化Spark上下文或Spark會話,因為這些都是由Databricks為您管理的。

我可以不使用Apache Spark而使用Databricks嗎?

Databricks支持各種工作負載,並在Databricks運行時中包含許多其他開放源碼庫。Databricks SQL在底層使用Apache Spark,但最終用戶使用標準的SQL語法來創建和查詢數據庫對象。

Databricks機器學習運行時針對ML工作負載進行了優化,許多數據科學家在Databricks工作時使用主要的開源庫,如TensorFlow和SciKit Learn。你可以用工作流在Databricks部署和管理的計算資源上調度任意工作負載。

為什麼在Databricks上使用Apache Spark ?

Databricks Lakehouse平台為開發Beplay体育安卓版本和部署隨業務擴展的企業解決方案提供了一個安全的協作環境。beplay娱乐iosDatabricks的員工代表了世界上許多最有知識的Apache Spark維護者和用戶,該公司不斷開發和發布新的優化,以確保用戶能夠訪問運行Apache Spark的最快環境。