圖表
使用X軸和Y軸的SQL可視化被稱為圖表。有八種不同類型的圖表。因為它們的類型是相似的,你可以在它們之間無縫切換,找到最能表達你意思的那個。在下麵的動畫中,所有八種類型都是從同一個SQL查詢結果構建的:
查詢設置
您的查詢應該返回至少兩列:X軸的一列值和Y軸的一列或多列值。它還可以為跟蹤返回值分組,顯示誤差線,以及氣泡大小。
上麵動畫中的圖表都是由下麵的表格結果生成的:
查詢返回正確的列後,首先設置X軸和Y軸值。可視化預覽自動更新;您不需要保存可視化來查看更改如何影響其外觀。
如果y軸字段是數字類型,則將旁邊的下拉設置為Y軸到要使用的聚合類型:總和(默認),平均,數,數不同,馬克斯,最小值,或中位數.如果y軸字段是字符串類型,則設置所需聚合旁邊的下拉框:數或數不同.
可視化編輯器屏幕中的選項卡使您可以對圖表的其餘部分進行細粒度控製。
使用X軸而且Y軸選項卡來修改軸範圍和標簽。
使用係列選項卡可以更改數據別名,z-index行為,在左右Y軸之間分配跟蹤。它還允許您在一個圖表中組合不同的跟蹤形式,如下麵的圖表所示。
使用顏色選項卡可更改圖表上軌跡的外觀。
使用數據標簽配置將鼠標懸停在圖表上時顯示的內容。
分組
使用集團設置在相同的X軸和Y軸上生成多條軌跡。該設置將記錄分組為不同的軌跡,而不是繪製一條線。幾乎每次您在圖表中看到多個線條或條形顏色時,都是因為查詢結果包含了一個分組列。
如下麵的示例所示,分組列用於排序(x, y)
對在一起。
分組by通常比編寫為一個X值返回多個Y列的查詢更容易。下麵兩個數據集是相同的。
請注意
對熔化的數據集使用“按列分組”。對樞軸數據集使用多個y列。可以在具有多個y列的可視化中使用Group by列。
疊加
Databricks SQL可以“堆疊”你的Y軸值在另一個上麵。這個名字是從堆疊柱狀圖,但它也可以用於麵積圖。下圖顯示了相同的數據,左邊是未堆疊的,右邊是堆疊的。
每個Y軸值顯示為自身和“下方”Y值的和。
您可以使用Series選項卡來控製跟蹤的堆疊順序。您也可以通過添加控件來控製它訂單通過
語句。堆棧按照組名在查詢結果中首次出現的順序排列。堆疊功能僅適用於折線圖、條形圖和麵積圖。
誤差線
對於某些圖表類型,Databricks SQL可以使用查詢結果中的值在數據點周圍繪製錯誤條。
錯誤條總是對稱的。距離:某一給定點上下的距離
(x, y)
配對總是一樣的。錯誤的顏色與其目標軌跡相同。
顯示所有跟蹤或沒有跟蹤的錯誤。您不能將它們配置為顯示在某些跟蹤上而不顯示在其他跟蹤上。
錯誤列中的值與它們關聯的跟蹤在同一軸上繪製圖表。這意味著您的錯誤值必須是絕對的。例如,不能將Y值的誤差以百分數表示。
當您堆疊記錄時,錯誤不會聚合;每個跟蹤都將顯示一個錯誤條。您可以通過僅為那些應該突出顯示錯誤的記錄提供非零錯誤值來解決這個問題。在前麵的例子中,平坦的誤差條顯示在每個跟蹤點,但隻有支付
跟蹤錯誤條的長度可以任意。
圖表類型
每種圖表類型都適用於某些類型的演示。您可以根據需要在同一圖表中混合和匹配多個類型:
行:表示一個或多個指標隨時間的變化。
酒吧:呈現指標隨時間的變化或顯示比例,如餅圖。您可以結合使用柱狀圖疊加.
組合:結合折線圖和柱狀圖,按比例顯示隨時間的變化。
區域:將折線圖和柱狀圖結合起來,以顯示一個或多個組的數值如何隨著第二個變量(通常是時間變量)的變化而變化。它們通常用於顯示銷售漏鬥隨時間的變化。您可以使用組合麵積圖疊加.
派:表示度量之間的比例關係。他們是不用於傳遞時間序列數據。
散射:擅長顯示多組數據點。散點圖就像折線圖,但是沒有連接線。散點圖更精確,但對時間序列數據用處不大。
散點圖對於某些組隻出現一次的可視化是必要的。折線圖不顯示單個值,因為它隻能顯示存在兩個或多個點的數據。方法上強製將單例對象轉換為分散類型係列標簽的可視化編輯器,同時保持其他跟蹤在行類型。
散點圖不支持可視化中的聚合。相反,修改查詢以添加聚合列。
泡沫:是散點圖,其中每個點標記的大小反映了相關的度量。
氣泡圖不支持可視化中的聚合。相反,修改查詢以添加聚合列。
的熱圖:柱狀圖、堆疊圖和氣泡圖的混合特性。您可以從幾種內置配色方案中進行選擇。熱圖不能分組,因為整個圖是一條軌跡。
盒子:自動顯示分組類別的數據點分布。
箱形圖不支持可視化中的聚合。相反,修改查詢以添加聚合列。
常見的錯誤
每個x軸值有多個記錄
如果您的查詢返回兩個或多個具有相同X軸值的行,Databricks SQL可以生成一些模糊的形狀。這種情況在SQL中經常發生加入
具有一對多關係的表。
在這個例子中畫了一條垂直線,因為1月1日有兩條記錄。可以通過過濾掉X軸上的雙項來解決這個問題,或者修改查詢以包含分組字段,如下圖所示。