如何轉儲表在CSV, JSON, XML,文本,或HTML格式

了解如何從Databricks以CSV、JSON、XML、文本或HTML格式輸出表。

寫的亞當Pavlacka

最後發布時間:2022年5月25日

您希望將Databricks中的計算結果發送到Databricks之外。您可以使用BI工具通過JDBC連接到您的集群,並從BI工具導出結果,或者將表保存在DBFS或blob存儲中,並通過REST API複製數據。

本文介紹JSpark,這是一個簡單的控製台工具,用於在Spark集群上使用JDBC執行SQL查詢,以CSV、JSON、XML、Text和HTML格式將遠程表轉儲到本地磁盤。

例如:

%sh java -Dconfig.file=mycluster.conf -jar jspark.jar -q "select id, type, priority, status from tickets limit 5"

返回:

+----+--------+--------+------+ | 優先級類型id | | |狀態 | +----+--------+--------+------+ | 9120 | |問題緊急關閉| | | 9121 | |問題正常持有| | | 9122 | |事件正常關閉| | | 9123 | |問題正常開放| | | 9124 | |事件正常|解決 | +----+--------+--------+------+

的使用說明、示例用法、源代碼和到組裝JAR的鏈接JSpark GitHub回購

您可以使用參數或配置文件指定JDBC連接的參數,例如:mycluster.conf

要檢查或排除JDBC連接故障,請下載胖JARjspark.jar並將其作為常規JAR啟動。它包括hive-jdbc 1.2.1和所有必需的依賴項。