拚花

免費試著磚

拚花是什麼?

Apache拚花是一個開源的,用於數據文件格式設計高效的數據存儲和檢索。它提供了高效的數據壓縮和編碼方案與處理大量複雜的數據增強性能。Apache拚花是設計為一個共同的交換格式批量和互動的工作負載。它類似於其他列存儲文件格式中可用Hadoop,即RCFile和獸人。

鑲花的特點

  • 免費和開源文件格式。
  • 語言不可知論者。
  • 基於列的格式文件是由列,而不是行,可以節省存儲空間和加速分析查詢。
  • 用於分析(OLAP)用例,通常是結合傳統OLTP數據庫。
  • 高效數據壓縮和解壓縮。
  • 支持複雜的數據類型和先進的嵌套數據結構。

鑲花的好處

  • 適合任何類型的存儲大數據(結構化數據表格、圖片、視頻、文檔)。
  • 保存在雲存儲空間通過使用高效列壓縮,和靈活的編碼方案,列有不同的數據類型。
  • 提高數據吞吐量和性能使用技術數據跳過,查詢獲取特定的列值不需要閱讀整個行數據。

Apache拚花是使用record-shredding和組裝算法,實現,可以容納複雜的數據結構,可以用來存儲數據。鑲木地板進行了優化處理大量複雜的數據和功能不同的方式高效的數據壓縮和編碼類型。這種方法是最好的特別是那些查詢,需要閱讀某些大型表列。拚花隻能讀取所需的列因此大大減少了IO。

柱狀的格式存儲數據的優點:

  • 柱狀存儲諸如Apache拚花設計帶來效率相比,基於行的CSV文件。查詢時,柱狀存儲您可以跳過此無關的數據非常快。因此,聚合查詢row-oriented數據庫相比更耗時。這種存儲方式轉化為硬件儲蓄和最小化延遲來訪問數據。
  • Apache拚花是從頭構建的。因此它能夠支持高級的嵌套數據結構。拚花數據文件的布局優化對於處理大量數據的查詢,在gb的範圍為每個單獨的文件中。
  • 拚花是建立支持靈活的壓縮選項和高效的編碼方案。每一列的數據類型很相似,每一列的壓縮是非常簡單的(這使得查詢更快)。數據可以通過使用一個可用的幾個編解碼器壓縮;因此,不同的數據文件可以被壓縮不同。
  • Apache拚花效果最好等互動和serverless技術AWS雅典娜,亞馬遜光譜紅移,穀歌BigQuery和穀歌Dataproc。

鑲木地板和CSV的區別

CSV是一個簡單和常見的格式,使用許多工具,如Excel,穀歌,和許多其他人。盡管CSV文件的默認格式數據處理管道它有一些缺點:

  • 亞馬遜雅典娜和頻譜將收取每查詢基於掃描的數據量。
  • 穀歌和亞馬遜將收你根據的數據量存儲在GS / S3。
  • 穀歌Dataproc指控是基於時間的。

拚花已經幫助用戶減少存儲需求通過在大型數據集至少三分之一,此外,它大大提高了掃描和反序列化,因此總體成本。下表比較了儲蓄以及加速獲得的數據轉換成從CSV拚花。

數據集

Amazon S3上大小

查詢運行時間

數據掃描

成本

數據存儲為CSV文件

1 TB

236秒

1.15結核病

5.75美元

數據存儲在Apache拚花格式

130 GB

6.78秒

2.51 GB

0.01美元

儲蓄

當使用鑲花少87%

快34倍

數據掃描少99%

99.7%的儲蓄

鑲木地板和三角洲湖

開源三角洲湖項目構建和擴展了鑲花格式之上,添加額外的功能像ACID事務對象存儲雲上,時間旅行,模式演化,和簡單的DML命令(創建/更新/插入/刪除/合並)。三角洲湖實現這些重要功能通過使用有序事務日誌,使數據倉庫的功能可能在雲對象存儲。學習更多的磚博客深入三角洲湖:開箱事務日誌

額外的資源

回到術語表
Baidu
map