核心火花功能。
核心火花功能。org.apache.spark.SparkContext作為火花的主要入口點,org.apache.spark.rdd.RDD是代表一個分布式的數據類型集合,並提供大多數並行操作。
此外,org.apache.spark.rdd.PairRDDFunctions包含操作隻能在抽樣鍵值對,等groupByKey
和加入
;org.apache.spark.rdd.DoubleRDDFunctions包含操作隻能在雙打的抽樣;和org.apache.spark.rdd.SequenceFileRDDFunctions包含操作可以在抽樣SequenceFiles能得救。這些操作是自動上可用任何抽樣的類型(如抽樣((Int, Int))通過隱式轉換。
Java程序員應該引用org.apache.spark.api.java包火花在Java編程api。
類和方法標注實驗是麵向用戶的功能還沒有被正式采用火花項目。這些小版本中更改或刪除。
類和方法標注開發人員API僅供高級用戶希望延長火花通過低層接口。這些小版本中更改或刪除。
火花的廣播變量,用於所有節點廣播不可變的數據集。
火花的廣播變量,用於所有節點廣播不可變的數據集。
α組件GraphX是一個圖像處理框架之上的火花。
α組件GraphX是一個圖像處理框架之上的火花。
IO用於壓縮編解碼器。
IO用於壓縮編解碼器。看到org.apache.spark.io.CompressionCodec。
DataFrame-based機器學習api來讓用戶快速組裝和配置實用機器學習管道。
DataFrame-based機器學習api來讓用戶快速組裝和配置實用機器學習管道。
RDD-based機器學習api(在維護模式)。
RDD-based機器學習api(在維護模式)。
的spark.mllib
包是在維護模式下的火花2.0.0發布鼓勵下遷移到DataFrame-based apiorg.apache.spark.ml包中。在維護模式,
spark.mllib
包將被接受,除非他們DataFrame-based塊實現新功能spark.ml
包;開發人員將繼續添加更多特性的DataFrame-based api 2。x係列達到1:1的特點RDD-based api。一旦我們達到功能平價,這個包會被棄用。
支持近似的結果。
支持近似的結果。這也提供了方便的api和實現近似計算。
提供了幾種抽樣的實現。
提供了幾種抽樣的實現。看到org.apache.spark.rdd.RDD。
火花的調度組件。
火花的調度組件。這包括org.apache.spark.scheduler.DAGScheduler
和較低的水平org.apache.spark.scheduler.TaskScheduler
。
可熱插拔的抽樣和洗牌數據序列化器。
可熱插拔的抽樣和洗牌數據序列化器。
允許關係查詢的執行,包括那些用SQL表達使用火花。
允許關係查詢的執行,包括那些用SQL表達使用火花。
火花流功能。
火花流功能。org.apache.spark.streaming.StreamingContext作為火花流的主要入口點,org.apache.spark.streaming.dstream.DStream是抽樣的數據類型代表一個連續的序列,代表一個連續的數據流。
此外,org.apache.spark.streaming.dstream.PairDStreamFunctions包含操作隻能在DStreams鍵值對,等groupByKey
和reduceByKey
。這些操作是自動上可用任何DStream正確的類型(例如DStream [(Int, Int)]通過隱式轉換。
Java API的火花流,看一看org.apache.spark.streaming.api.java.JavaStreamingContext作為入口點,和org.apache.spark.streaming.api.java.JavaDStream和org.apache.spark.streaming.api.java.JavaPairDStreamDStream功能。
火花工具。
火花工具。