取消
顯示的結果
而不是尋找
你的意思是:

從一個新手磚……關於Python編程磚

MaverickF14
新的貢獻者二世

以下……

我們有客戶在合同與我們合作。每個客戶端幾個合同特定類型的開始和結束日期。

如果我需要聚合信息/客戶端在一個記錄:

  • 有許多不同的合同做了客戶
  • 哪種類型的
  • dateof第一個合同是什麼時候
  • 最後一個合同
  • 我們和他一起工作多久了。

信息從sourcedatabase DWH鋪文件上傳。

應該/我在拚花可以使用Python意味這些數據?循環在源表和聚合數據創建一個表嗎?

6個回答6

匿名
不適用

有很多方法可以做到這一點,python是一個。如果你有拚花的文件,您也可以編寫sql容易攻擊他們。的東西,如

從鋪select count (*)。“拚花目錄路徑”

你不需要做表鑲花的文件,但是你可以。

您可以使用常規的python數據磚,但它不會分布式所以確保隻使用單個節點集群。你也可以使用pyspark。

BilalAslamDbrx
尊敬的貢獻者二世
尊敬的貢獻者二世

像@Joseph Kambourakis說,有很多方法可以做到這一點。你可以寫純Python或SQL。對我來說,它更容易編寫SQL所以我首先該數據加載到三角洲表然後寫純SQL。

這可能是最簡單的選擇。如果是重複使用的東西。或者可能創建一個臨時視圖如果是一次的事情。

PriyaAnanthram
貢獻者三世

我假設所有這些文件的模式是相同的

如果是如何處理這取決於你的滿意

想到的步驟

  • 在著陸區有一個每個客戶端文件夾結構
  • 閱讀所有的拚花合同文件到三角洲input_file_name()也許會有用的文件處理

(合同/客戶類型和開始結束日期)

  • 為客戶端創建一個列的名稱

執行聚合

  • 有許多不同的合同做了客戶

——集團列出和計數

  • 哪種類型的

——組織列出的指望類型

  • dateof第一個合同是什麼時候

——集團列出和最小的日期

  • 最後一個合同

——集團列出和馬克斯日期

  • 我們和他一起工作多久了。

——最小和最大的區別

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map