Erik_L -磚

Erik_L · 04-21-2023

我試圖dodf =沒有#所有的id是有效的id在IDs中:#來自不同數據源的數據得到的部分df_1 = spark.read.parquet (url_for_id) df_2 = spark.read.parquet (url_for_id)…#一起巴勒斯坦權力機構……

Erik_L · 04-20-2023

我有一群來自不同數據源的數據幀。他們都是時間序列數據的順序列時間戳,這是一個int32 Unix時間戳。我可以一起加入他們這個和另一個列join_idx這基本上是一個整數印度……

Erik_L · 03-22-2023

ProblemReading幾乎相當於鋪在一個目錄表列X型浮子和一些型雙失敗。vectorizationUsing嚐試resolvingUsing流filesRemoving三角洲緩存,緩存()explicitlyNotesThis……

Erik_L · 03-17-2023

ProblemI目錄在S3中有一些數據文件,如“數據- 20221101.鋪”。他們都有相同的列:時間戳,reading_a, reading_b reading_c。在前麵的文件,閱讀是浮動,但在後來的雙…

Erik_L · 03-07-2023

目標:使用Python 3.10.4 +原因:Python不向後兼容的回購我們想使用。:我已經創建了一個圖像從磚例子實驗容器與Ubuntu 22.04(2大版本更新比曲線……

Erik_L · 04-26-2023

謝謝你的全麵的反應——我看看其中的一些。額外的上下文,這裏有一些限製數據:所有的表應該_mostly_相同的尺寸和相同的密鑰生成過程,生成時間ser…

Erik_L · 04-21-2023

我的道歉——似乎標題誤導你。我欣賞和徹底回答另一個問題,但我的問題是如何保持數據在本地文件集群效率之間的查詢。

Erik_L · 03-22-2023

經過許多許多小時的試圖解決這個問題,我想出了一個黑客_solves_問題,但它不是最優的。我基本上讀文件的目錄清單,然後通過工會和合並它們做一個拯救出來。my_schema = StructType([結構……

Erik_L · 03-17-2023

磚社區和磚的標準版沒有SQL工作區/環境。然而,你可以從任何筆記本運行SQL命令數據工程師。單擊+按鈕,選擇筆記本,並選擇“SQL”作為你的語言。

Erik_L · 03-16-2023

隻使用熊貓和遵循spark.createDataFrame (df)

磚