彈性分布式數據集(抽樣)

免費試著磚

彈性分布式數據集是什麼?

抽樣是主要麵向用戶的API引發自成立以來。核心,一個抽樣是一個不可變的分布式數據的元素集合,跨中節點集群,可以並行操作的低級API提供了轉換和行動。

何時使用抽樣的5大理由

  1. 你想要低級轉換和操作和控製你的數據集;
  2. 數據是結構化的,如媒體流或文本流;
  3. 你想操縱你的數據與函數式編程構造域特定的表達式;
  4. 你不關心征收模式,如柱狀格式而加工或訪問數據屬性的名字或列;和
  5. 你可以放棄一些優化和性能優勢可用DataFrames和結構化和半結構化數據的數據集。

在Apache火花2.0抽樣時,會發生什麼?

抽樣被降級為二等公民?他們是被棄用嗎?答案是否定的!更重要的是可以無縫DataFrame之間移動或數據集和抽樣將簡單的API方法調用和DataFrames和數據集是建立在抽樣。

額外的資源

回到術語表
Baidu
map