Apache拚花是一個開源的,用於數據文件格式設計高效的數據存儲和檢索。它提供了高效的數據壓縮和編碼方案與處理大量複雜的數據增強性能。Apache拚花是設計為一個共同的交換格式批量和互動的工作負載。它類似於其他列存儲文件格式中可用Hadoop,即RCFile和獸人。
Apache拚花是使用record-shredding和組裝算法,實現,可以容納複雜的數據結構,可以用來存儲數據。鑲木地板進行了優化處理大量複雜的數據和功能不同的方式高效的數據壓縮和編碼類型。這種方法是最好的特別是那些查詢,需要閱讀某些大型表列。拚花隻能讀取所需的列因此大大減少了IO。
CSV是一個簡單和常見的格式,使用許多工具,如Excel,穀歌,和許多其他人。盡管CSV文件的默認格式數據處理管道它有一些缺點:
拚花已經幫助用戶減少存儲需求通過在大型數據集至少三分之一,此外,它大大提高了掃描和反序列化,因此總體成本。下表比較了儲蓄以及加速獲得的數據轉換成從CSV拚花。
數據集 |
Amazon S3上大小 |
查詢運行時間 |
數據掃描 |
成本 |
數據存儲為CSV文件 |
1 TB |
236秒 |
1.15結核病 |
5.75美元 |
數據存儲在Apache拚花格式 |
130 GB |
6.78秒 |
2.51 GB |
0.01美元 |
儲蓄 |
當使用鑲花少87% |
快34倍 |
數據掃描少99% |
99.7%的儲蓄 |
開源三角洲湖項目構建和擴展了鑲花格式之上,添加額外的功能像ACID事務對象存儲雲上,時間旅行,模式演化,和簡單的DML命令(創建/更新/插入/刪除/合並)。三角洲湖實現這些重要功能通過使用有序事務日誌,使數據倉庫的功能可能在雲對象存儲。學習更多的磚博客深入三角洲湖:開箱事務日誌。