所以我有兩個三角洲住表。大師一個表,包含所有之前的數據,和另一個表,其中包含所有的新數據的特定的一天。我希望能夠合並這兩個表,這樣主人表包含將包含最新的數據。然而,我與火花dataframes隻知道怎麼做,但是不知道這是可能的與達美住表。
到目前為止我所做的可以歸結為兩種方法。把兩個三角洲住表轉換成火花dataframes然後執行merge()操作與他們是第一,然後創建一個新的dlt。表的輸出。
第二個選擇是使用疾病預防控製中心,但我不確定該怎麼做。我知道apply_changes函數應該包含一個目標表以及一個src表。但我能做,有兩個三角洲住表嗎?這件事我真的感到十分困惑。任何幫助都是讚賞
從三角洲。表* @dlt進口。表(name = " Merged_Table "評論=“這是合並表每日更新和主表”)def merge_daily_and_master_table (): df_json_3 = dlt.read_stream (“df_json_3”) MASTER_2 = dlt.read_stream (“MASTER_2”) MASTER_2 = MASTER_2.toDF () df_json_3 = df_json_3.toDF () MASTER_2.alias (MASTER_2) \ .merge (df_json_3.alias (“df_json_3”)、“MASTER_2。PRODUCT_CODE = df_json_3。PRODUCT_CODE”) \ .whenMatchedUpdate (= {" product_name ": " df_json_3設置。NAME_ZT”、“product_name_en df_json_3“:”。名稱”、“描述”:“df_json_3。DESCRIPTION_ZT”、“description_en df_json_3“:”。描述”、“category_code df_json_3“:”。ERPCATEGORYCODE”、“erp_product_type df_json_3“:”。ERPPRODUCTTYPE”、“在線”:“df_json_3。在線“})\ .whenNotMatchedInsert(值= {:“PRODUCT_CODE df_json_3。PRODUCT_CODE”、“product_name df_json_3“:”。NAME_ZT”、“product_name_en df_json_3“:”。名稱”、“描述”:“df_json_3。DESCRIPTION_ZT”、“description_en df_json_3“:”。描述”、“category_code df_json_3“:”。ERPCATEGORYCODE”、“erp_product_type df_json_3“:”。ERPPRODUCTTYPE”、“在線”:“df_json_3。在線“})\ . execute()返回(MASTER_2)
上麵的代碼是如何交貨我目前想做的
嘿@Pierre Nanquette我了解從三角洲住表概念是我們不能加入兩個河流三角洲住表在一個時刻,你可以與你的第一個選項,表轉換成dataframe然後合並,從目前我們不能合並三角洲生活直接表。