Apache拚花は効率的なデータの保存と検索のために設計された,オープンソースの列指向データファイル形式です。複雑なデータを一括処理するための効率的なデータ圧縮と符號化方式を提供し,パフォーマンスを向上させます。Apache拚花はバッチとインタラクティブの両方のワークロードで共通の交換形式となるように設計されており,Hadoopで利用可能な他の列指向ストレジファル形式であるRCFileやORCに似ています。
Apache拚花はレコードのシュレッダーとアセンブリアルゴリズムによって実裝され,データの保存に使用できる複雑なデータ構造に対応しています。また,複雑なデータを一括処理するために最適化されており,効率的なデータ圧縮とエンコーディングタイプを備えているのが特徴です。特に,大きなテ,ブルから特定の列を読み込むクエリに最適です。拚花は、必要な列のみを読み込むことで IO を大幅に削減できます。
CSVは、Excelや穀歌スプレッドシートなどの多くのツールで使用されており,他にも多數のツールで使用されているシンプルで一般的なフォーマットです。CSVはデタパプランのデフォルト設定ですが,次のようなデメリットがあります。
鑲木地板により,大規模なデータセットのストレージ必要量は少なくとも3分の1削減され,スキャンとデシリアライゼーションに必要な時間の大幅な改善で,全體のコストが削減されています。以下の表は,データをCSVから鋪へ変換することで得られる速度と節約率を比較したものです。
デ,タセット |
Amazon S3でのデタサズ |
クエリの実行時間 |
スキャンデ,タ |
コスト |
CSVファaapl . exeルのデ |
1 TB |
236 秒 |
1.15結核病 |
5.75美元 |
Apache Parquet形式のデ,タ |
130 GB |
6.78秒 |
2.51 GB |
0.01美元 |
削減率 |
拚花使用による削減率87% |
34 倍速 |
スキャンデタ削減率99% |
削減率99.7% |
オ,プンソ,スの三角洲湖プロジェクトは,拚花形式に基づいて構築され,さまざまな機能の追加により拡張されています。追加機能には,クラウドオブジェクトストレージの酸トランザクション,タイムトラベル,スキーマの拡張,シンプルなDMLコマンド(創建、更新、插入、刪除、合並)などがあります。三角洲湖は,順序付けられたトランザクションログを使用してこれらの重要な機能の多くを実裝しています。これにより,クラウドのオブジェクトストレ,ジ上におけるデ,タウェアハウス機能が可能になります。詳細は,こらの動畫三角洲湖詳細編:トランザクションログをご覧ください。