我有文件。csv或。鋪在創建數據幀閱讀我們可以顯式定義模式與結構體類型。而不是寫在筆記本上的模式想創建模式允許說我所有的csv csv_schema和我有一個模式存儲在雲存儲中。如果任何添加或刪除我將分別用csv_schema文件。
筆記本在創建數據幀在閱讀文件想通過這個模式存儲在單獨的文件中,請建議如果我們可以在python編寫任何函數或其他想法自動化模式創建和添加數據幀的不同文件係統所以它像,我有模式文件。模式,模式定義了所有的拚花其通用文件/任何文件。有點像
一個。模式的文本文件包含下麵的細節
代碼基於schema1中= StructType ([StructField (x1, StringType(),真的),StructField(“名字”,StringType(),真的),StructField(“價格”,倍增式(),真的)))
讀的。模式從筆記本創建所需的存儲模式需要通過dataframe。
df = spark.read。模式(普通模式)。拚花. .嗨@sani南達,
請按照下麵的步驟,
column_names = spark.read.option(“標題”,真的). csv (schemafile) .columns
df = spark.read。選項(“頭”,“假”)。選項(“inferSchema”,“真正的”). csv(丟失)。toDF (column_names: _ *)
@shyamspr,謝謝但說兩個場景就像我們需要添加的列數據類型顯式地在筆記本,考慮30到40 +列牽引,沒有可重用每個筆記本需要添加模式。
就像你更新說自定義模式結構,是存儲在一個文件custom_schema。三夥人試圖從該文件custom_schema應用模式。txt, Struct類型和字段定義,在數據從文件讀取路徑和dataframe創造
但不能讓它。所以在想如果任何python函數或任何實用程序可以幫助形成了可重用的代碼從文件讀取模式定義和數據幀期間我們同樣可以使用。