注:以下為Python用戶指南主要是。為其他語言,請查看以下鏈接:
這一步步的引導將您的數據使您正在進行的科研項目:
•使用顯示()命令來快速了解您的數據
•過程和有效地保存數據
•進口任何機器學習框架
首先,使用角色切換器打開你的機器學習主頁
第1部分:使用顯示()命令來快速了解您的數據
查看數據的產出和快速創建一個交互式可視化使用顯示()命令查看DataFrame。
1。創建一個筆記本。給它一個名稱,設置默認語言Python,並選擇一個集群
2。寫一個命令將數據加載到DataFrame,下麵的示例DataFrame或負載
raw_data = spark.read.format(“δ”).load (“/ databricks-datasets / nyctaxi-with-zipcodes /子樣品”)
3所示。使用python顯示()命令來查看Dataframe
顯示器(raw_data)
4所示。上麵顯示的結果,表的右邊,點擊+和選擇“可視化”
5。在可視化類型下拉,選擇一個圖表類型
建議:使用這個數據的散點圖
6。選擇中出現的數據可視化
推薦:X列= trip_distance;Y列= fare_amount
7所示。點擊保存
現在,您可以從您的數據發現新的見解。
第2部分:過程和有效地保存數據
保存你的分析的結果通過持久化存儲的結果:
•SQL DDL命令:您可以使用標準的SQL DDL命令支持Apache火花(例如,創建表選擇三角洲)來創建表
•表批指南寫道:
#在使用DataFrame metastore的模式中創建表並寫入數據
df.write.format(“δ”).saveAsTable (“default.people10m”)
第3部分:導入任何機器學習框架
1。進口所需的庫。這些庫是預裝在磚運行時機器學習(AWS|Azure|GCP)集群和調諧兼容性和性能。
進口mlflow
進口numpy作為np
進口熊貓作為pd
進口sklearn.datasets
進口sklearn.metrics
進口sklearn.model_selection
進口sklearn.ensemble
從hyperopt進口fmin, tpe、惠普、SparkTrials STATUS_OK試驗
從hyperopt.pyll進口範圍
現在你訓練的機器學習模型,看看下麵的鏈接。
了解更多:
•數據磚概論筆記本電腦
•文檔如何進口,讀取和修改數據
•創建指南可視化
•數據科學入門指南
•Apache火花編程與磚課程
•問磚專家辦公時間
•隨時與我們聯係
降低你的問題,下麵的反饋和建議!