一個DataFrame是一種數據結構,將數據組織成一個二維表的行和列,就像一個電子表格。DataFrames是最常見的一種數據結構在現代數據分析使用,因為它們是一個靈活的和直觀的方式存儲和處理數據。
每一個DataFrame包含一個藍圖,稱為模式,定義每一列的名稱和數據類型。火花DataFrames StringType和IntegerType可以包含通用數據類型,以及數據類型的火花,如StructType。缺失或不完整的值被存儲為零DataFrame中的值。
一個簡單的類比是DataFrame像電子表格命名列。然而,它們之間的區別是,當一個電子表格坐在一台電腦在一個特定的位置,DataFrame可以跨越數千台電腦。這樣,DataFrames對大數據的分析成為可能,使用分布式計算集群。
的原因把數據在多個計算機應該直觀:要麼是數據太大了,適合在一台機器上或它會花太多時間來執行計算在一台機器上。
DataFrame是常見的概念在許多不同的語言和框架。DataFrames是主要的數據類型用於大熊貓、流行的Python數據分析庫,和DataFrames也用於R, Scala和其他語言。