取消
顯示的結果
而不是尋找
你的意思是:

事件流中心提高處理速度

Jreco
貢獻者

你好,

我工作與活動中心和數據磚實時處理和豐富的數據。

做一個“簡單的”測試,我得到一些奇怪的值(輸入速率和處理速率),我覺得我失去數據:

圖像如果你可以看到,有一個峰5 k記錄但從未加工後的5分鍾。

我使用的腳本:

conf配置[' eventhubs = {}。connectionString '] = sc._jvm.org.apache.spark.eventhubs.EventHubsUtils.encrypt (connectionString_bb_stream) conf [' eventhubs。consumerGroup '] = ' adb_jr_tesst配置[' maxEventsPerTrigger '] = 350000年的會議(“maxRatePerPartition”) = ' 350000 '參看[' setStartingPosition '] = sc._jvm.org.apache.spark.eventhubs.EventPosition.fromEndOfStream df =(火花。readStream .format (eventhubs) .options (* * conf) .load json_df = df ())。withColumn(“身體”,from_json(坳(“身體”).cast(字符串),jsonSchema)) Final_df = json_df。選擇([“sequenceNumber”、“抵消”、“enqueuedTime”,上校(“。*”)])Final_df = Final_df。withColumn用戶(“關鍵”,sha2 (concat(坳(EquipmentId)坳(TagId)坳(“時間戳”)),256))Final_df.display ()

你能幫我理解為什麼我“失去”數據或如何可以改善這個過程嗎?

我使用的集群:

圖像

我認為是一個集群配置的問題,但是我不知道怎麼解決。

謝謝你的幫助,夥計們!

14日回複14

werners1
尊敬的貢獻者三世

嗯很奇怪。你不使用現貨實例對嗎?

對不起,維爾納,我不確定你是什麼意思,“運動實例”

werners1
尊敬的貢獻者三世

圖像這些都是所謂的“點”的實例,你可以借用其他客戶價格便宜。beplay体育app下载地址

但是當這些客戶需要他們時,他們beplay体育app下载地址會趕出你的賬戶。流,可能會是一個問題,但我從來沒有測試。

謝謝你的解釋。

我沒有這個選項檢查。

jose_gonzalez
主持人
主持人

嗨@Jhonatan雷耶斯,

你準備多少事件中心的分區?你micro-batch需要幾毫秒內完成,我認為這是很好的時間,但我想更好的你在這裏努力改善食品的保質期。

同時,在這種情況下,您正在使用內存水槽(顯示),我會強烈推薦使用另一種類型的水槽來測試它。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map