09-07-202201:03我
嘿,夥計們,
我用petastorm培訓款,首先我將火花df make_spark_convertor物化數據集,然後打開一個讀者。
雖然我隻在開始訓練子集的數據沒問題,但每件事當我用所有數據集與Python 500批我的筆記本崩潰後的內核是反應遲鈍,你們知道這發生了什麼嗎?
我看到有點類似的問題,我已把線程轉儲,但沒有理解它。
除了我得到很多未來的警告petastorm pyarrow,知道如何避免所有這些警告嗎?
11-14-202205:32我
@Cheuk欣克利斯朵夫Poon
嗯,我根本沒有什麼像樣的想法除了檢查為什麼這樣,也許像你說的,轉置需要收集所有的數據到司機,也許你能找到有價值的信息引發的UI。
希望你能解決這個問題,但它聽起來真的很奇怪,你需要128 GB的機轉置矩陣2 GB。
10-05-202201:58我
我也有同樣的問題。
之前的致命錯誤:Python的內核是反應遲鈍”,這個過程”確定的位置DBIO文件片段。這個操作可以花一些時間的我花了6.92小時。
我想知道是否這是正常的。
@Vidula卡納
10-25-202210點
嘿@Cheuk欣克利斯朵夫Poon我不知道如果你設法解決這個問題。
我看到在磚的博客,這個錯誤是由於內存問題,鏈接在這裏
除此之外,當我試圖運行我的筆記本從一份工作,不僅僅是運行完成沒有任何錯誤也正在使用的內存減少了一半,也許你應該試試,如果還沒有成功。
我認為當你運行代碼在筆記本很多國家保存任何填滿內存(這隻是一個感覺我沒確認)。
10-25-2022下午12:33
@orian印地語我也認為問題是內存不足。但是我已經部署的6 - 8Standard_NC6s_v3Azure磚(GPU-accelerated計算)。
還不夠我252000上運行Kmean集群數據品脫(n_cluster = 11,最大迭代= 10)使用SparkML Sckit-learn ?
10-07-202209:06我
培訓的時候我注意到兩件事可能會導致錯誤。
第一個是訓練後墜毀,GPU內存幾乎是完整的(與Nvidia半命令檢查)。
第二個是我看到ganglia指標交換的總內存之上
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。