取消
顯示的結果
而不是尋找
你的意思是:

指數從csv文件dataframe基於文件的原始順序(不是基於任何特定的列,基於整個行)使用火花

andrew0117
貢獻者

如何保證索引總是遵循文件的原始順序。目前,我使用val df = spark.read。選項(地圖(“標題”- >“真正的”,“inferSchema”- >“true”)) . csv (“filePath”)。withColumn(“指數”,monotonically_increasing_id ())。

謝謝!

6個回答6

霸王龍
新的貢獻者二世

你好@andrew李

你能解決這個嗎?我有同樣的場景。

謝謝

沒有真的。最終我們決定失敗的整個過程,將通知發送到最終用戶做dedup。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map