架構設計:
源:Miltiple CSV文件(SourceFile1 SourceFile2)
目標:三角洲表像(Target_Table)
Excel文件:ETL_Mapping_Sheet
TargetTable,文件列:SourceTable, SourceColumn TargetColum MappingLogic
從表或MappingLogic列包含(SELECT *
SELECT * FROM SourceFile1左加入SourceFile2 B
什麼:我怎麼能使用MappingLogic cloumns dataframe構建映射邏輯值? ?
我可以直接執行SQL語句使用列值? ?
我的方法:
從一個ETL映射表更新樣本行:
我難以理解這個問題,所以請糾正我:
如果我理解正確的話你一個excel充滿sql表達式(或字段映射源庫)和要使用的內容,excel將它插入代碼?
在技術上我認為這是可能的,你可以讀取excel文件成python或火花DF和提取的值與收集()函數(遠東)。
但是這真的是你想去的路嗎?因為你把你的映射邏輯到excel文件,這是地獄IMO打開大門。
我寧願去selectExpr()表達式。這樣的映射駐留到代碼中,您可以檢查到git,版本控製等。
謝謝你的回應。
你的理解是正確的。
我更新了示例etl,映射。
如您所見,這個映射表包含sql語句目標值和我有500映射像這樣我想直接使用這個映射表的邏輯
你不認為這將是一個好方法嗎? ?