取消
顯示的結果
而不是尋找
你的意思是:

火花的分區數量UI模擬器實驗

Bartek
貢獻者

我正在學習如何優化引發火花UI的應用程序與實驗模擬器。有實驗# 1596命令2中關於數據傾斜和評論有多少個分區將被設置為默認值:

/ / 8核心因素大於預期的825個分區

我不明白這句話的第二部分:“825年預期分區”。這個數字的來源是什麼?是如何計算的?

obraz

1接受解決方案

接受的解決方案

UmaMahesh1
尊敬的貢獻者三世

嗨@Bartosz Maciejewski

通常我們到達使用以下方法調整分區的數量。

輸入尺寸數據- 100 GB

理想目標分區大小- 128 MB

核心- 8

理想的分區數量= (100 * 1028)/ 128 = 803.25 ~ 804

正常utiltize核心可用尤其是最後的迭代調整分區的數量應該是其他因素的核心數我們不會正確使用核心。給分區太少會導致更少的並發性和太多會導致大量的洗牌。

至於你指的是上麵的例子,如果你計算理想分區數量給予適當的輸入數據的大小和預期目標大小128 MB (64 MB或或任何低於500 MB),它應該是825左右。

現在附近的8核因子- 825是824年或832年。如果你給824,然後最後迭代將分配給825分區僅7的8核將閑置的地方。我們會下一個因素是832,有最佳利用所有可用的核心。

希望這有助於……做評論,如果你有任何查詢。

歡呼。

在原帖子查看解決方案

3回複3

Vidula_Khanna
主持人
主持人

嗨@Bartosz Maciejewski

很高興認識你,謝謝你的問題!

看看你的同行在社區中有一個回答你的問題。否則bricksters能早日回到你身邊。

謝謝

UmaMahesh1
尊敬的貢獻者三世

嗨@Bartosz Maciejewski

通常我們到達使用以下方法調整分區的數量。

輸入尺寸數據- 100 GB

理想目標分區大小- 128 MB

核心- 8

理想的分區數量= (100 * 1028)/ 128 = 803.25 ~ 804

正常utiltize核心可用尤其是最後的迭代調整分區的數量應該是其他因素的核心數我們不會正確使用核心。給分區太少會導致更少的並發性和太多會導致大量的洗牌。

至於你指的是上麵的例子,如果你計算理想分區數量給予適當的輸入數據的大小和預期目標大小128 MB (64 MB或或任何低於500 MB),它應該是825左右。

現在附近的8核因子- 825是824年或832年。如果你給824,然後最後迭代將分配給825分區僅7的8核將閑置的地方。我們會下一個因素是832,有最佳利用所有可用的核心。

希望這有助於……做評論,如果你有任何查詢。

歡呼。

嗨@Uma Maheswara Rao Desula

謝謝你的回應!

我有檢查加載數據集的實際尺寸是有點超過103 GB。使用公式:

1 (103 * 1024)/ 128 = 824,8

這就是為什麼鍛煉有825個分區,然後當你指出的那樣,最近的8倍是832。

現在對我來說一切是清楚的——我想知道為什麼每個指標選擇:slightly_smiling_face:

幹杯

Bartek

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map