我們正在建設一個三角洲住管道在AWS S3使用cloudFiles攝取csv文件。
和有必要訪問文件的文件修改的時間戳。
記錄在這裏,我們選擇“_metadata”列在三角洲住管道任務沒有成功。我們做錯了什麼嗎?
下麵的代碼片段:
@dlt。表(name =“青銅”,評論= f“新{模式}數據逐步吸收從S3”, table_properties ={“質量”:“青銅”})def bronze_job():返回火花\ .readStream \ .format (cloudFiles) \ .option (“cloudFiles。useNotifications”、“真實”)\ .option (“cloudFiles。格式”、“csv”) \ .option (“cloudFiles。區域”、“一來”)\ .option(“分隔符”,",")\ .option(“逃脫”,“\”)\ .option(“頭”,“假”)\ .option(“編碼”,“utf - 8”) . SCHEMA (cdc_schema) \ \ .load (“/ mnt / % s /美國疾病控製與預防中心/ % s“% (RAW_MOUNT_NAME、模式))\ .select (“*”、“_metadata”)
謝謝。
光輝