您希望將Databricks中的計算結果發送到Databricks之外。您可以使用BI工具通過JDBC連接到您的集群,並從BI工具導出結果,或者將表保存在DBFS或blob存儲中,並通過REST API複製數據。
本文介紹JSpark,這是一個簡單的控製台工具,用於在Spark集群上使用JDBC執行SQL查詢,以CSV、JSON、XML、Text和HTML格式將遠程表轉儲到本地磁盤。
例如:
%sh java -Dconfig.file=mycluster.conf -jar jspark.jar -q "select id, type, priority, status from tickets limit 5"
返回:
+----+--------+--------+------+ | 優先級類型id | | |狀態 | +----+--------+--------+------+ | 9120 | |問題緊急關閉| | | 9121 | |問題正常持有| | | 9122 | |事件正常關閉| | | 9123 | |問題正常開放| | | 9124 | |事件正常|解決 | +----+--------+--------+------+
的使用說明、示例用法、源代碼和到組裝JAR的鏈接JSpark GitHub回購.
您可以使用參數或配置文件指定JDBC連接的參數,例如:mycluster.conf.
要檢查或排除JDBC連接故障,請下載胖JARjspark.jar並將其作為常規JAR啟動。它包括hive-jdbc 1.2.1和所有必需的依賴項。