如果你正在與火花,你將遇到三個api: DataFrames,數據集和抽樣
抽樣或彈性分布式數據集,是記錄的集合與分布式計算、容錯、不可變的。他們可以並行的低級api,而他們懶惰的特性使得火花操作在一種改進的工作速度。抽樣支持兩種類型的操作:
如果您選擇使用抽樣必須優化每個抽樣。此外,與數據集和DataFrames不同,抽樣推斷數據的模式不攝取,因此您必須指定它。
DataFrames是一種分布式行下命名列的集合。簡而言之,它看起來像一個Excel表和列標題,或者你可以把它相當於一個表在一個關係數據庫或DataFrame R或Python。它有三個主要的共同特征與抽樣:
在火花DataFrames可以創建在幾個方麵:
DataFrame API的主要缺點是,它不支持編譯時安全的,因此,用戶是有限的,以防數據的結構尚不清楚。
數據集是強類型的,不可變的對象集合映射到一個關係模式。數據集可以使用JVM創建對象和操作使用複雜的功能轉換。數據集可以通過兩種方式創建:
數據集的主要缺點是,它們需要鑄字成字符串。