由於每個人加入會話數據架構的最佳實踐優化數據性能。你可以按需訪問會話記錄在這裏跑前性能基準測試使用火花UI模擬器。
適當的集群配置中扮演著重要的角色在為您的數據優化工作。你是否很舒服與Apache火花™或剛剛開始,我們的專家的最佳實踐,以幫助調整數據管道的性能。在會話中,專家介紹:
發布以下是提問和回答的一個子集。請後續提問或添加評論線程。
問:什麼是最常見的性能問題?
“5 Ss”指的是五種最常見的性能問題,每個開發人員需要注意:泄漏、傾斜、洗牌,存儲和序列化。通過開發一個堅實的理解這些問題,每個開發人員能更好地診斷和修複各種性能問題。
問:火花我真的需要知道多少?
遠低於你使用!適當的集群配置,虛擬機選擇、內存分配、計算水平和一般拓撲可以扮演重要的角色在優化工作為Apache火花™可以任何其他話題。顯著的好處使用三角洲集群和火花集群的最大性能給出具體的工作要求,同時考慮到許多其它因素。
問:如果發生事故,有可能得到源代碼我們可以找出可能會錯了嗎?
如果您的集群日誌,您可以查看日誌發現的錯誤和錯誤通常顯示解釋計劃。否則,你可以去集群跑您的查詢,點擊sparkUI,如果它是一個DF查詢,你可以看到在底部的SQL選項卡相應的工作在“細節”。
問:我的性能優化的“足夠”是什麼時候?
一個優化適用於幾乎每一個火花的工作是數據的優化和減少攝入。這次會議探索攝入的關鍵概念,包括文件格式,數據格式,數據存儲策略,以及他們如何都能共同工作性能的最大化。
你的後續問題添加到線程!
更多信息,查看數據磚學院自學課程優化Apache火花™磚包括在磚學院免費客戶學習。