火花API

免費試著磚

如果你正在與火花,你將遇到三個api: DataFrames,數據集和抽樣

彈性分布式數據集是什麼?

抽樣或彈性分布式數據集,是記錄的集合與分布式計算、容錯、不可變的。他們可以並行的低級api,而他們懶惰的特性使得火花操作在一種改進的工作速度。抽樣支持兩種類型的操作:

  • 轉換——懶惰的操作返回另一個抽樣,抽樣不計算,除非執行行動。一些例子的轉換映射(),flatmap()、過濾器()
    火花API:抽樣轉換
  • 行動——操作觸發計算和返回值。操作數的例子,一些頂級(),savetofile ()
    火花API:抽樣操作

抽樣的缺點

如果您選擇使用抽樣必須優化每個抽樣。此外,與數據集和DataFrames不同,抽樣推斷數據的模式不攝取,因此您必須指定它。

DataFrames是什麼?

DataFrames是一種分布式行下命名列的集合。簡而言之,它看起來像一個Excel表和列標題,或者你可以把它相當於一個表在一個關係數據庫或DataFrame R或Python。它有三個主要的共同特征與抽樣:

  • 不變的性質:你將能夠創建一個DataFrame但你無法改變它。DataFrame就像一個抽樣可以改變
  • 懶惰的評估:都不執行一個任務執行一個動作。
  • 分布:DataFrames就像抽樣都是分布在自然界中。

創建一個DataFrame方法

在火花DataFrames可以創建在幾個方麵:

  • 使用不同的數據格式。諸如加載JSON的數據、CSV、RDBMS, XML或拚花
  • 加載數據從一個已經存在的抽樣。
  • 以編程方式指定模式

缺點DataFrames

DataFrame API的主要缺點是,它不支持編譯時安全的,因此,用戶是有限的,以防數據的結構尚不清楚。

數據集是什麼?

數據集是強類型的,不可變的對象集合映射到一個關係模式。數據集可以使用JVM創建對象和操作使用複雜的功能轉換。數據集可以通過兩種方式創建:

  • 動態
  • 閱讀使用SparkSession從JSON文件。

缺點的數據集

數據集的主要缺點是,它們需要鑄字成字符串。

額外的資源

回到術語表
Baidu
map