我們有一個光標在DB2在每個循環讀取數據從表2。每個循環結束時,插入到目標表的數據後,我們更新這兩個表中的記錄與每個循環之前移動到下一個循環。一個指示性的例子是以下:
獲取CUR1 V_A1, V_A2、V_C1 V_C3, V_M1 V_M2
選擇從TABLE_1 V_M1 A1 = V_A1
從TABLE_2選擇V_M2 C1 = V_C1的地方
如果.....那麼其他V_B1 = V_M1-V_M2 ....
插入目標……值(V_A1, V_A2,…)
更新TABLE_1組V_M1 = V_M1 - V_B1
更新TABLE_2組V_M2 = V_M2 - V_B1
獲取CUR1 V_A1, V_A2、V_C1 V_C3, V_M1 V_M2
結束時
關閉CUR1
注意,A1, C1整個數據並不是唯一的。
請建議使用Pyspark變換方法嗎?性能也很重要,因為我們談論大量數據。我看到抽樣是不可變的,以防我們RDD-map選項。
提前謝謝你