我有一個現有的數據管道是這樣的:一個小MySQL數據源(大約250 GB)和數據通過Debezium /卡夫卡/自定義數據編輯者- >膠ETL作業最後落在紅移,但數據的規模太小。我試圖建立一個新的數據管道從以下現狀:- 3 MySQL集群副本(源)1(全部數據大小1 TB)和數據科學家出租汽車司機的方式直接查詢數據導致的時間延遲。,但對於這個新管道,TBs的數據要大得多。所以現有管道實現失敗我頭腦風暴的建築思想。很多這些概念很新我。所以,有一些問題不清楚這一點:1。有可能創建一個疾控中心管道內的SQL集群?與MYSQL副本DeltaLakes是一個好的用例?2。有好辦法修訂PII /隱藏信息在SQL集群? I was thinking of creating views that don't read the PII fields. What is an alternative to Debezium/Kafka if I am using Databricks and want to hide PII fields upstream? 3. I am looking at AWS Databricks as an option to perform ETL operations. But in this case, should the source be the CDC tables before ETL starts? Or is it advisable to build another CDC pipeline followed by another one to read from the output of this pipeline? (This portion is quite unclear to me) 4. What would be good data ingestion options in this scenario? I am thinking of a pull-based architecture where Spark reads the data source in batch intervals. Is there a better approach? 5. Do I really need Redshift if the data source is just 1 TB? Would a DW be overkill at this point? Can I not just create structured tables in DataBricks itself?
這個問題有很多,所以一般來說我建議你接觸磚的銷售團隊。你可以跟一位進入更詳細的解決方案架構師。這是我的總體思想看到很多客戶弓:
一般來說,你可以做所有這些磚,你不使用紅移,或MySQL。你可以在三角洲表中存儲的數據和結果,用戶可以查詢它。新磚SQL是一個SQL框,你可以指示板或連接到其他BI工具(表等)。這種替換紅移,1 - 2秒延遲查詢。這樣做的部分是你可以保持拚花與您的數據文件在S3。你不需要鎖定在紅移或MySQL格式。或複製它。
至於PII和修訂,最好的辦法是將數據保存到三角洲S3外部路徑表。然後你可以管理權限的文件位置S3。至於修訂和隱藏某些列,您可能需要等待統一目錄出來。我不確定可以。
證明模式是第一個土地新/更改的數據到數據湖(ADLS, S3,…)遠東鑲花的格式。對於這一點,你需要一些ETL工具,可以讀CDC工具,或利用查詢(基於時間戳、日期)。的主要目標是讓新數據數據湖盡可能快。這可以用多種工具(磚其中之一,或AWS膠)。
所以我建議先有一個管道,土地的原始數據,然後第二個(甚至更多)的過程數據。你可以把整個流進一個單一的管道,但不利的一麵是,你沒有明確區分提取原始數據和處理這些數據。
是一個很好的指導方針來思考整個數據流的哪些部分應該能夠單獨運行(多個管道可能使用相同的數據,但提取這些數據不應該多次運行,所以提取是一個單獨的步驟)。因為你使用增量更新,三角洲湖無疑是一個很好的選擇!
Pii有關數據:國際海事組織的最簡單的方法是盡快解決這個問題,在數據流。遠東直接在etl工具(通過選擇查詢或視圖不顯示pii數據)如果你不需要流數據,我從批處理開始。鑒賞(磚/火花)。如果以後需要流數據時,您可以從批遷移到流,這是可能的。
紅移或不…視情況而定。你當然可以提供數據磚本身(當然新的SQL分析環境)。所以我認為這將是一個性價比的問題。
我自己遠東使用Azure突觸(與紅移)。但我很確定即可達到相同的磚。在未來我們可能會改變這個。這將取決於價格/性能。希望你能做一些回答。
這個問題有很多,所以一般來說我建議你接觸磚的銷售團隊。你可以跟一位進入更詳細的解決方案架構師。這是我的總體思想看到很多客戶弓:
一般來說,你可以做所有這些磚,你不使用紅移,或MySQL。你可以在三角洲表中存儲的數據和結果,用戶可以查詢它。新磚SQL是一個SQL框,你可以指示板或連接到其他BI工具(表等)。這種替換紅移,1 - 2秒延遲查詢。這樣做的部分是你可以保持拚花與您的數據文件在S3。你不需要鎖定在紅移或MySQL格式。或複製它。
至於PII和修訂,最好的辦法是將數據保存到三角洲S3外部路徑表。然後你可以管理權限的文件位置S3。至於修訂和隱藏某些列,您可能需要等待統一目錄出來。我不確定可以。