解決:問題轉換Pyspark Dataframe dictionar……-磚- 3345

Databricks3 · ‎06-08-2023

我有下列三個問題。

Q1。我需要安裝第三方庫統一目錄啟用共享集群。但是我不能夠安裝。不接受dbfs路徑dbfs: / FileStore /罐/

Q2。我有一個要求將數據裝載到salesforce從s3文件。我用簡單的salesforce庫進行讀/寫在salesforce數據磚。根據我們需要提供字典數據的文檔編寫函數。當我試圖把pyspark dataframe我得到以下錯誤。

從pyspark.sql。類型進口StructType、StructField StringType, IntegerType data2 = [(“Test_Conv1”、“testmailconv1@yopmail.com”,“奧利維亞”,“一個”,“3000000000”),(“Test_Conv2”、“testmailconv2@yopmail.com”,“傑克”、“B”, 4000000000), (“Test_Conv3”、“testmailconv3@yopmail.com”,“威廉姆斯”,“C”, 5000000000), (“Test_Conv4”、“testmailconv4@yopmail.com”,“瓊斯”,“D”, 6000000000), (“Test_Conv5”、“testmailconv5@yopmail.com”,“布朗”,沒有,9000000000)]模式= StructType ([\ StructField(“姓”,StringType(),真的),\ StructField(“電子郵件”,StringType(),真的),\ StructField (“FirstName”, StringType(),真的),\ StructField (“MiddleName StringType(),真的),\ StructField(“電話”,StringType(),真的)])df = spark.createDataFrame (data = data2模式=)df_contact = df.rdd。地圖(λ行:row.asDict ()) .collect () sf.bulk.Contact.insert (df_contact batch_size = 20000, use_serial = True)

錯誤信息:

py4j.security。公共org.apache.spark.rdd Py4JSecurityException:方法。抽樣org.apache.spark.api.java.JavaRDD.rdd()類類org.apache.spark.api.java.JavaRDD不是白名單

你能幫我把dataframe字典。

第三季。即使有一種方法將dataframe字典,它可以影響大數據集的性能。有什麼辦法可以加載在Salesforce數據更優化的方法。

werners1 · ‎06-09-2023

1。https://docs.www.eheci.com/dbfs/unity-catalog.html

直接使用DBFS與文件,你必須有

任何文件

權限授予。

2。你能試試嗎這些方法嗎?

3.根據數據的大小產生影響。但我認為瓶頸將salesforce的一麵。

在原帖子查看解決方案

werners1 · ‎06-09-2023

1。https://docs.www.eheci.com/dbfs/unity-catalog.html

直接使用DBFS與文件,你必須有

任何文件

權限授予。

2。你能試試嗎這些方法嗎?

3.根據數據的大小產生影響。但我認為瓶頸將salesforce的一麵。

Databricks3 · ‎06-12-2023

這不是一個許可的問題。我已經上傳在磚第三方庫,但磚集群不接受jar的路徑。

werners1 · ‎06-13-2023

第三方庫不在dbfs,它可能仍然是這個問題。

Vidula_Khanna · ‎06-13-2023

嗨@SK阿西夫•阿裏•

我們沒有收到你自從上次反應@werners(客戶)。請與我們分享的信息,作為回報,我們將為您提供必要的解決方案。

感謝和問候

磚

問題轉換Pyspark Dataframe字典