火花SQL

《數據湖屋的崛起》作者:Bill Inmon

許多數據科學家、分析師和一般商業智能用戶依賴交互式SQL查詢來探索數據。Spark SQL是一個火花模塊用於結構化數據處理。它提供了一種名為DataFrames的編程抽象,還可以充當分布式SQL查詢引擎。它啟用未修改的HadoopHive查詢在現有部署和數據上運行速度快100倍。它還提供了與Spark生態係統其他部分的強大集成(例如,將SQL查詢處理與機器學習集成)。

什麼是Apache Spark SQL?

Spark SQL為Spark帶來了對SQL的本地支持,並簡化了查詢存儲在rdd (Spark的分布式數據集)和外部數據源中的數據的過程。Spark SQL方便地模糊了rdd和關係表之間的界限。統一這些強大的抽象使開發人員可以很容易地將查詢外部數據的SQL命令與複雜的分析混合在一起,所有這些都在一個應用程序中。具體來說,Spark SQL將允許開發人員:

  • 從Parquet文件和Hive表導入關係數據
  • 對導入的數據和現有rdd運行SQL查詢
  • 輕鬆地將rdd寫入Hive表或Parquet文件

Spark SQL還包括基於成本的優化器、柱狀存儲和代碼生成,以提高查詢速度。同時,它可以使用Spark引擎擴展到數千個節點和多個小時的查詢,Spark引擎提供了完整的查詢中間容錯,而不必擔心使用不同的引擎來處理曆史數據。

額外的資源

回到術語表
Baidu
map