解決:Re: Databricks-Connect顯示不同的分區…頁2 -磚- 26714

s_plank · ‎03-01-2022

你好,

這是一個小代碼片段:

從pyspark。sql進口SparkSession火花= SparkSession.builder.appName (example_app) .getOrCreate()火花。sql(顯示分區database.table),告訴()

Databricks-Notebook內部的輸出:

+ - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + | projectNumber | plantId | | +名字- - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + | xxxx | P0 | * * * .yyyy ............| | yyyy | P2 | * * * .yyyy ............|……

當我運行相同的代碼如上所述在Visual Studio代碼,連接到同一個集群通過Databricks-Connect,我收到這個輸出:

+ - - - - - - - - - - - - | + |分區+ - - - - - - - - - - - - + | xxxx | | yyyy |…

這個輸出錯誤的列名稱和隻顯示第一個分區。

這是奇怪的。一切都是相同的輸出應該是一樣的。

我收到正確的分區通過sql-describe databricks-connect和磚:

火花。sql(描述表database.table),告訴()+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + + | col_name | data_type |評論| + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + - - - - - - - + #分區| | | | | 0 |一部分projectNumber | | | |第1部分plantId | | | |第2部分名稱| | + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + +

表是一個差值表,位於一個azure blob存儲。

我試著刷新表但這沒有區別。

我發現了一個不同Spark-UI SQL選項卡。

有3查詢db-connect運行和4的磚。

物理執行計劃是相同的,但第二個查詢”執行ShowPartitionsDeltaCommand”缺少db-connect來看。

db-connect查詢:

執行ShowPartitionsDeltaCommand |輸出:[projectNumber、plantId、名稱]
更大的執行計劃(相同的在這兩種情況下)|輸出:[projectNumber、plantId、名稱]
LocalTableScan |輸出:(分區]

查詢數據磚:

執行ShowPartitionsDeltaCommand |輸出:[projectNumber、plantId、名稱]
更大的執行計劃(相同的在這兩種情況下)|輸出:[projectNumber、plantId、名稱]
執行ShowPartitionsDeltaCommand |輸出:[projectNumber、plantId、名稱]
LocalTableScan |輸出:[projectNumber、plantId、名稱]

´我不知道為什麼但2分區迷路db-connect查詢。

什麼好主意嗎?

s_plank · ‎04-05-2022

嗨@Jose岡薩雷斯,

是的SQL-Connector工作好。謝謝你！

jose_gonzalez · ‎04-11-2022

嗨@Stefan板材,

謝謝你的回複,我將標誌著一個“最佳”的響應。

磚

Databricks-Connect顯示不同的分區比磚三角洲表相同