拚花

免費試著磚

開始

拚花是什麼?

Apache拚花是一個開源的,用於數據文件格式設計高效的數據存儲和檢索。它提供了高效的數據壓縮和編碼方案與處理大量複雜的數據增強性能。Apache拚花是設計為一個共同的交換格式批量和互動的工作負載。它類似於其他列存儲文件格式中可用Hadoop,即RCFile和獸人。

Apache拚花是使用record-shredding和組裝算法,實現,可以容納複雜的數據結構,可以用來存儲數據。鑲木地板進行了優化處理大量複雜的數據和功能不同的方式高效的數據壓縮和編碼類型。這種方法是最好的特別是那些查詢,需要閱讀某些大型表列。拚花隻能讀取所需的列因此大大減少了IO。

柱狀存儲諸如Apache拚花設計帶來效率相比,基於行的CSV文件。查詢時,柱狀存儲您可以跳過此無關的數據非常快。因此,聚合查詢row-oriented數據庫相比更耗時。這種存儲方式轉化為硬件儲蓄和最小化延遲來訪問數據。
Apache拚花是從頭構建的。因此它能夠支持高級的嵌套數據結構。拚花數據文件的布局優化對於處理大量數據的查詢,在gb的範圍為每個單獨的文件中。
拚花是建立支持靈活的壓縮選項和高效的編碼方案。每一列的數據類型很相似,每一列的壓縮是非常簡單的(這使得查詢更快)。數據可以通過使用一個可用的幾個編解碼器壓縮;因此,不同的數據文件可以被壓縮不同。
Apache拚花效果最好等互動和serverless技術AWS雅典娜,亞馬遜光譜紅移,穀歌BigQuery和穀歌Dataproc。

CSV是一個簡單和常見的格式,使用許多工具,如Excel,穀歌,和許多其他人。盡管CSV文件的默認格式數據處理管道它有一些缺點:

拚花已經幫助用戶減少存儲需求通過在大型數據集至少三分之一,此外,它大大提高了掃描和反序列化,因此總體成本。下表比較了儲蓄以及加速獲得的數據轉換成從CSV拚花。

開源三角洲湖項目構建和擴展了鑲花格式之上,添加額外的功能像ACID事務對象存儲雲上,時間旅行,模式演化,和簡單的DML命令(創建/更新/插入/刪除/合並)。三角洲湖實現這些重要功能通過使用有序事務日誌,使數據倉庫的功能可能在雲對象存儲。學習更多的磚博客深入三角洲湖:開箱事務日誌。

回到術語表