拚花

數據庫無料トラ電子詞典アル

拚花とは

Apache拚花は効率的なデータの保存と検索のために設計された,オープンソースの列指向データファイル形式です。複雑なデータを一括処理するための効率的なデータ圧縮と符號化方式を提供し,パフォーマンスを向上させます。Apache拚花はバッチとインタラクティブの両方のワークロードで共通の交換形式となるように設計されており,Hadoopで利用可能な他の列指向ストレジファル形式であるRCFileやORCに似ています。

拚花の特徴

  • コスト不要のオプンソスのファル形式
  • あらゆる言語に対応
  • 列ベ,スのフォ,マット:ファ,ルは行ではなく列ごとに整理されるため,ストレ,ジ容量を節約し,分析クエリを高速化します。
  • 分析(olap)のユ,スケ,スに使用:通常は,従來のoltpデ,タベ,スと組み合わせて使用します。
  • 高効率なデ,タ圧縮と解凍
  • 複雑なデタタプ,高度にネストされたデタ構造をサポト

拚花を使用するメリット

  • ビッグデ,タの保存に最適:構造化デ,タ,テ,ブル,畫像,動畫,ドキュメントなど,あらゆる種類のデ,タを保存できます。
  • クラウドストレ,ジを節約:高効率なカラム単位の圧縮と,異なるデ,タの種類の列に対応する柔軟な符號化方式を採用しています。
  • デ,タのスル,プットとパフォ,マンスの向上:データスキッピングなどの技術を用いて,特定の列の値を取得するクエリによるデータの行全體の読み取りを不要にします。

Apache拚花はレコードのシュレッダーとアセンブリアルゴリズムによって実裝され,データの保存に使用できる複雑なデータ構造に対応しています。また,複雑なデータを一括処理するために最適化されており,効率的なデータ圧縮とエンコーディングタイプを備えているのが特徴です。特に,大きなテ,ブルから特定の列を読み込むクエリに最適です。拚花は、必要な列のみを読み込むことで IO を大幅に削減できます。

列指向フォ,マットでデ,タを保存するメリット

  • CSVのような行指向ファイルと比較すると,Apache鋪のような列指向ストレージは効率的:クエリを実行する際,列指向ストレージでは,非関連データを迅速にスキップすることができるため,行指向データベースと比較して,集計クエリの時間が短縮されます。また,このようなストレージ方式により,ハードウェアの節約およびデータアクセスのレイテンシを最小限に抑えることが可能です。
  • Apache拚花はゼロから構築:このため,高度にネストされたデータ構造への対応が可能です。拚花のデータファイルのレイアウトは、個々のファイルに対してギガバイト級のデータを大規模処理するクエリのために最適化されています。
  • 鑲木地板のデータファイルのレイアウトは,個々のファイルに対してギガバイト級のデータを大規模処理するクエリのために最適化:拚花は,柔軟な圧縮オプションと効率的なエンコードスキームをサポートするように構築されています。それぞれの列のデータタイプは類似しているため,各列の圧縮は簡単で,クエリの実行はさらに高速化します。
  • 優れたサーバーレスな技術との親和性:Apache拚花は,AWS雅典娜や亞馬遜光譜紅移,穀歌BigQuery,穀歌Dataprocなどの対話型でサーバーレスな技術との親和性に優れています。

拚花とCSVの比較

CSVは、Excelや穀歌スプレッドシートなどの多くのツールで使用されており,他にも多數のツールで使用されているシンプルで一般的なフォーマットです。CSVはデタパプランのデフォルト設定ですが,次のようなデメリットがあります。 

  • 亞馬遜雅典娜や頻譜では,クエリごとにスキャンしたデータ量で課金される。
  • 穀歌やAmazonでは,GSまたはS3に保存したデ,タ量により課金される。
  • 穀歌數據procでは,実行時間に応じて課金される

鑲木地板により,大規模なデータセットのストレージ必要量は少なくとも3分の1削減され,スキャンとデシリアライゼーションに必要な時間の大幅な改善で,全體のコストが削減されています。以下の表は,データをCSVから鋪へ変換することで得られる速度と節約率を比較したものです。

デ,タセット

Amazon S3でのデタサズ

クエリの実行時間

スキャンデ,タ

コスト

CSVファaapl . exeルのデ

1 TB

236 秒

1.15結核病

5.75美元

Apache Parquet形式のデ,タ

130 GB

6.78秒

2.51 GB

0.01美元

削減率

拚花使用による削減率87%

34 倍速

スキャンデタ削減率99%

削減率99.7%

拚花と三角洲湖

オ,プンソ,スの三角洲湖プロジェクトは,拚花形式に基づいて構築され,さまざまな機能の追加により拡張されています。追加機能には,クラウドオブジェクトストレージの酸トランザクション,タイムトラベル,スキーマの拡張,シンプルなDMLコマンド(創建、更新、插入、刪除、合並)などがあります。三角洲湖は,順序付けられたトランザクションログを使用してこれらの重要な機能の多くを実裝しています。これにより,クラウドのオブジェクトストレ,ジ上におけるデ,タウェアハウス機能が可能になります。詳細は,こらの動畫三角洲湖詳細編:トランザクションログをご覧ください。

額外的資源

回到術語表
Baidu
map