Apache Spark API參考
Databricks建立在Apache Spark的頂部,Apache Spark是一種用於大數據和機器學習的統一分析引擎。有關更多信息,請參閱apache spark-什麼是火花在Databricks網站上。
Apache Spark具有易於使用的API,用於在大型數據集上操作。這包括100多個運營商的集合,用於轉換數據和熟悉的數據框架API,以操縱半結構化數據。這些API包括:
Pyspark Apis對於Python開發人員。看Pyspark入門。關鍵類包括:
火花- 使用數據集和DataFrame API進行編程Spark的入口點。看Spark Session API和起點:火花。
數據框架- 分布式的數據集合,分組為命名列。看數據集和數據範圍,,,,創建數據範圍,,,,DataFrame API, 和數據幀功能。
SparkR API對於R開發人員。看到SparkR(Spark on Spark)開發人員指南。關鍵類包括:
SparkDataFrame- 分布式的數據集合,分組為命名列。看數據集和數據範圍,,,,創建數據範圍, 和創建SparkDataFrames。
Scala API。關鍵類包括:
Java Apis。關鍵類包括:
要了解如何在Databricks上使用Apache Spark API,請參見:
對於Java,您可以將Java代碼作為一個罐子工作。