Env: Azure Databrick:
版本:9.1 LTS(包括Apache火花3.1.2,Scala 2.12)
工作類型:56 GB內存2 - 8節點(標準D13_V2)
沒有行:2470350和115列
大小:2.2 GB
時間約。9分鍾
Python代碼。
df_gl_repartitioned = f5.repartition (10)
write_data_to_db (df_gl_repartitioned,“myserver.database.windows.net”、“XXXX.onmicrosoft.com”、“DBNAME”、“dbo。dbutils鹿”,“1004857”、“覆蓋”)
試一試:df.write.format (com.microsoft.sqlserver.jdbc.spark) .mode(模式)。f選項(“url”, " jdbc::狀態"置疑" / /{服務器}”)。選項(“數據庫名、數據庫)。選項(“數據表”數據表)。選項(“accessToken”, access_token)。選項(“加密”,“真正的”)。選項(“hostNameInCertificate”, .database.windows.net“*”) .option (“schemaCheckEnabled”,“假”).save()打印(f“成功地寫了df{數據表}”)除了ValueError錯誤:打印(錯誤)
我檢查下麵的鏈接
我將避免重新分配另外不必要的成本,和你通常已經有數據分區。(檢查df.rdd.getNumParitions ())。
2.2 GB不是很廣泛,所以我將會用一個基本的機器,一個司機,1到2之間的自動伸縮的工人。