抽樣是主要麵向用戶的API引發自成立以來。核心,一個抽樣是一個不可變的分布式數據的元素集合,跨中節點集群,可以並行操作的低級API提供了轉換和行動。
何時使用抽樣的5大理由
- 你想要低級轉換和操作和控製你的數據集;
- 數據是結構化的,如媒體流或文本流;
- 你想操縱你的數據與函數式編程構造域特定的表達式;
- 你不關心征收模式,如柱狀格式而加工或訪問數據屬性的名字或列;和
- 你可以放棄一些優化和性能優勢可用DataFrames和結構化和半結構化數據的數據集。
在Apache火花2.0抽樣時,會發生什麼?
抽樣被降級為二等公民?他們是被棄用嗎?答案是否定的!更重要的是可以無縫DataFrame之間移動或數據集和抽樣將簡單的API方法調用和DataFrames和數據集是建立在抽樣。