Databricksレ. cerクハウスプラットフォ. cerムは,バッチ/ストリ,ミングデ,タの取り込み,変換を容易にします。さらに,インフラの管理を自動化することで,信頼性の高い本番ワークフローのオーケストレーションを可能にします。また,數據庫は,データ品質の検証機能とソフトウェア開発のベストプラクティスをサポートしており、チームの生産性が向上します。
バッチ/ストリミングの両方に対応
統合されたAPIを備えた単一のプラットフォームでサイロを排除し,バッチ/ストリーミングデータの大規模な取り込み,変換,増分処理を可能にします。
運用負荷の軽減
磚は,インフラと本番ワークフローの運用コンポーネントを自動的に割り當てることで,ツールの運用管理の手間をなくします。したがって,ユ,ザ,はデ,タに集中できます。
任意のルを接続
レイクハウスプラットフォームのオープン性により,任意のデータエンジニアリングツールを使用したデータの取り込み,ETL /英語教學,オーケストレーションが可能です。
レ▪▪クハウスプラットフォ▪▪ムが基盤
レイクハウスプラットフォームは,データ資産の構築と共有,一元管理を可能にし,高速で信頼性の高いデータソースを提供します。
“私たちにとって磚は,あらゆるETL業務のワンストップショップになりつつあります。レクハウスを活用すればするほど,ユザ,プラットフォム管理者の両方の負擔を削減できます。」
仕組み
デ,タ取り込みの簡素化
Etl処理の自動化
信頼性の高いワ,クフロ,のオ,ケストレ,ション
エンドエンドの観察·監視
次世代のデ,タ処理エンジン
ガバナンス,信頼性,性能を支える基盤
デ,タ取り込みの簡素化
レ▪▪クハウスプラットフォ▪▪ムにデ,タを取り込み,分析,ai,ストリ,ミングアプリケ,ションを一元管理できます。オ,トロ,ダは,スケジュールされたジョブや連続したジョブにおいて,クラウドストレージにロードされたファイルに対して増分処理を自動で行います。デタの狀態にいての詳細を手動で管理する必要はありません。數十億規模の新しいファイルでもディレクトリにリストすることなく効率的に追跡し,ソースデータからスキーマを自動的に推測し,時間の経過とともにスキーマを進化させることも可能です。アナリストは複製到コマンドを使用すると,sqlを介して三角洲湖へのバッチファ@ @ルの取り込みを容易に実行できます。
デ,タエンジニアリングの生産性が40%向上しました。新しいア@ @デアの開発にかかる時間を數日から數分に短縮し,デ@ @タの可用性と精度が高まっています。」
Gousto社最高技術責任者肖恩·皮爾斯氏
Etl処理の自動化
取り込んだ未加工デ,タは,分析やaiに利用できるように変換する必要があります。數據庫は,Delta Live Tables(DLT)により,デタエンジニア,デタサエンティスト,アナリストに強力なetl機能を提供します。DLTは,バッチデ,タやストリ,ミングデ,タにETLおよび毫升パイプラインを構築する,シンプルな宣言型アプローチを使用した初のETLフレームワークです。インフラ管理,タスクオーケストレーション,エラー処理やリカバリ,性能の最適化といった複雑な運用タスクを自動化します。エンジニアはDLTを使用することで,データをコードとして扱うことができ,テスト,監視,文書化などのソフトウェアエンジニアリングのベストプラクティスを適用し,信頼性の高いパイプラインを大規模に展開できます。
信頼性の高いワ,クフロ,のオ,ケストレ,ション
磚工作流は,レ▪▪クハウスプラットフォ▪▪ムにネイティブで,あらゆるデータ,分析,AIに対応するフルマネージド型のオーケストレーションサービスです。Delta活動表と,ジョブのsql,火花印度生物技術部,ノートブック,毫升モデルなどを含む多様なワークロードのフルライフサイクルのオーケストレーションを可能にします。基盤となるレイクハウスプラットフォームとの緊密な統合により,主要なクラウド上で信頼性の高いワークロードを作成して実行すると同時に,エンドユーザーにシンプルで詳細な一元化された監視を提供します。
“私たの使命は,地球に電力を供給する方法を変革することです。エネルギー分野のクライアントは,その変革を達成するためにデータ,コンサルティングサービス,調査を必要としています。磚ワークフローは,クライアントが必要とする分析情報を提供するスピードと柔軟性を提供します。」
ウッドマッケンジ,社デ,タ部門副總裁吳燕燕氏
次世代のデ,タ処理エンジン
磚のデータエンジニアリングは,Apache火花APIと互換性のある次世代エンジン光子を実裝し,數千ノ,ドの自動スケ,リングに対応すると同時に,記録的な価格性能を実現しています。Spark構造化ストリ,ミングにより,バッチおよびストリーム処理の単一の統合APIが提供されるため,コードの変更や新しいスキルの習得なしに,レ▪▪クハウスでのストリ▪▪ミングを容易に導入できます。
最先端のデ,タガバナンス,信頼性,性能
數據庫のデ,タエンジニアリングでは,レ▪▪クハウスプラットフォ▪▪ムの基本コンポーネントである統一目錄と三角洲湖のメリットを享受できます。三角洲湖は、酸トランザクションによる信頼性,スケーラブルなメタデータ処理,高速性能を提供するオープンソースのストレージフォーマットで,未加工データを最適化します。統一目錄と組み合わせることで,あらゆるデ,タとai資産に対するきめ細かなガバナンスを実現します。単一の一貫性のあるモデルを使用してクラウド全體でデータの発見,アクセス,共有ができるため,ガバナンスが簡素化されます。また,統一目錄は,他の組織と容易かセキュアにデタを共有するための業界初のオプンプロトコル三角洲分享をネ▪▪ティブにサポ▪▪トしています。
デ,タブリックスソリュ,ションへの移行
HadoopやエンタープライズDWHなどのレガシーシステムに関連するデータサイロ,パフォーマンス低下,高いコストにうんざりしていませんか嗎?磚レイクハウスに移行することで,あらゆるデータ,分析,AIのユースケースに対応する最新のプラットフォームが実現します。
デタンジェストとetl
+ Apache SparkTM互換クラアント
導入事例
Delta活動表
Delta Sharing
三角洲分享