數據分析簡介

對於有抱負的數據科學家

概述

加入我們的四部分學習係列:有抱負數據科學家的數據分析介紹。這種自定節定的在線研討會係列適用於任何人和每個人都對學習數據分析感興趣。不需要以前的編程經驗。

每個車間頁麵都包含會話視頻錄製,轉錄,揚聲器信息和Github鏈接,以訪問筆記本和資源。我們建議你從第一個開始,介紹Python,並從那裏繼續,因為每個研討會都在最後建立。

如果你想跟隨,請注冊您的免費社區版本帳戶或者下載delta湖圖書館

Python介紹

在此研討會中,我們將在Python上使用免費的Databricks Community Edition上的筆記本環境向Python展示所需的簡單步驟.This Workshop涵蓋您在Python中開始編碼所需的主要基礎概念,重點是數據分析。不需要先前的編程知識。

熊貓數據分析

此研討會是Pandas,一個強大的開源Python包,用於數據分析和操作。在此研討會中,您將學習如何讀取數據,計算摘要統計信息,檢查數據分布,進行基本數據清潔和轉換,以及簡單可視化。雖然不需要準備工作,但我們建議基本的Python知識。觀看第一部分,介紹Python了解Python。

ML介紹:SCICIT-GROOK

Scikit-Learn是數據科學從業者中最受歡迎的開源機器學習圖書館之一。該研討會將走過機器學習,不同類型的機器學習,以及如何構建簡單的機器學習模型。該研討會側重於應用和評估機器學習方法的技術,而不是它們背後的統計概念。

Apache Spark介紹

該研討會涵蓋了Apache Spark,最受歡迎的大數據處理引擎的基礎。在此研討會中,您將學習如何使用Spark,分析火花UI的數據,並更好地了解分布式計算。不需要先前的火花知識,但強烈建議使用Python經驗。

技術談判:進入三角洲湖

潛水通過Delta Lake的內部,一個受歡迎的開源技術,使酸事務,時間旅行,架構實施以及更多在您的數據湖泊之上。

現在看

Baidu
map