靜脈數據Lakehouse這neuartige, offene Datenverwaltungsarchitektur,死Flexibilitat死去,Kosteneffizienz Skalierbarkeit馮數據的湖泊麻省理工學院Datenverwaltungsfunktionen和ACID-Transaktionen馮數據倉庫kombiniert所以商業智能(BI)和maschinelles Lernen (ML) auf Grundlage通向Daten ermoglicht。
Grundlage馮數據Lakehouses是靜脈neuartiges,經常Systemdesign:死direkte Implementierung馮·Datenstrukturen和Datenverwaltungsfunktionen死jenen進行數據倉庫ahneln,汪汪汪kostengunstigem Speicher,是不是er毛皮數據湖泊verwendet將。Das Zusammenfuhren祖茂堂einem einzigen係統beschleunigt勞動der Datenteams死去,da您Daten現在nutzen能幫,ohne mehrere和abfragen祖茂堂得。數據Lakehouses stellen außerdem那麼自信,dass窩團隊jederzeit死vollstandigsten和aktuellsten Daten毛皮數據科學、maschinelles Lernen和業務分析vorliegen。
Es有einige wesentliche科技Entwicklungen死das數據Lakehouse moglich gemacht有:
Metadaten-Layer是不是das quelloffene三角洲湖basieren Open-Source-Dateiformaten汪汪汪(z。B。Parquet-Dateien)。您erfassen, welche Dateien Bestandteil verschiedener Tabellenversionen信德,和您能因此umfassende Funktionen是不是ACID-kompatible Transaktionen anbieten。死Metadaten-Layer麥臣weitere馮數據Lakehouses一Funktionen moglich,大約死Unterstutzung馮Streaming-I / O (wodurch der Bedarf Message-Bussen是不是卡夫卡entfallt), Zeitreisen祖茂堂美好Tabellenversionen, Schemaerzwingung和進化論和Datenvalidierung。性能是der Schlussel水平,dass數據Lakehouses蘇珥vorherrschenden Datenarchitektur Unternehmen了可以在,denn您是靜脈der Hauptgrunde水平,dass數據倉庫在der 2-Schicht-Architektur existieren。當der Zugriff auf數據湖貝Verwendung kostengunstiger Objektspeicher在der Vergangenheit還有vergleichsweise langsam戰爭,ermoglichen neue Abfrage-Engines heute leistungsstarke SQL-Analysen。祖茂堂的估計值Optimierungen gehoren死Zwischenspeicherung heißer Daten(死im Bedarfsfall zuvor甲酸在effizientere umkodiert了)我RAM、SSD,汪汪汪Optimierungen des Datenlayouts zum Clustern gemeinsam genutzter Daten, Hilfsdatenstrukturen以色列立Statistiken Indizes和死vektorisierte Ausfuhrung auf modernen cpu。軍隊死這位Technologien Kombination可以在數據Lakehouses auf der Grundlage·馮·貝großen數據集erzielen TPC-DS-Benchmarks一張性能,死durchaus麻省理工學院der des mithalt beliebten數據倉庫。死offenen Datenformate死馮數據Lakehouses(包括拚花)verwendet了,麥臣機器學習數據科學家和工程師sehr einfach,汪汪汪死Daten im Lakehouse zuzugreifen。您能幫我DS / ML-Okosystem beliebte工具是不是熊貓,TensorFlow, PyTorch製裁verwenden,死bereits auf Quellen以色列立拚花獸人zugreifen能幫。Spark-DataFramesbieten sogar deklarative Schnittstellen毛皮這offenen甲酸,死weitere我的風景明信片/ O-Optimierung ermoglichen。Weitere功能進行數據Lakehouse——以色列立Audit-Verlauf Zeitreise——tragen ebenfalls蘇珥Verbesserung der Reproduzierbarkeit貝姆maschinellen Lernen貝。Weitere Informationen吧台technologischen Fortschritten,死der Umstellung auf das數據Lakehouse zugrunde liegen,法登您CIDR-Artikel化生Lakehouse:新一代的開放式平台,統一數據倉庫和先進的分析Beplay体育安卓版本和港口einem weiteren wissenschaftlichen Artikel以三角洲湖:高性能酸表存儲在雲存儲對象。
數據倉庫有貝Anwendungen毛皮Entscheidungsfindung和商業智能蘭格的傳統,waren allerdings不geeignet奧得河河口祖茂堂貴的皮毛死Verarbeitung unstrukturierter, teilstrukturierter和hochgradig異基因Daten,死在entsprechender門格和Geschwindigkeit anfallen。
數據湖泊entstanden丹,嗯Rohdaten毛皮數據科學和機器學習在靜脈Vielzahl馮Formaten auf preisgunstigem Speicher祖茂堂verarbeiten。Allerdings fehlen您entscheidende Merkmale來自der沿條der數據倉庫:您unterstutzen keine Transaktionen, erzwingen keine Datenqualitat,和das fehlen馮Konsistenz /隔離macht es快速unmoglich Anfuge -和Lesevorgange和港口批和Streaming-Jobs gemischt祖茂堂verwalten。
Datenteams fugen這Systeme folglich z, BI和ML datenubergreifend麻省理工學院beiden Systemen祖茂堂ermoglichen。Hierdurch entstehen Datendubletten、Infrastrukturmehrkosten Sicherheitsprobleme和betrachtliche Betriebskosten。在靜脈zweistufigen Datenarchitektur了Daten每ETL馮窩Betriebsdatenbanken杯數據ubertragen湖。Der數據湖speichert死Daten des gesamten Unternehmens在einem kostengunstigen Objektspeicher。Dabei erfolgt死Speicherung einem格式,das麻省理工學院gangigen工具毛皮maschinelles Lernen kompatibel堅持,但經常努爾unzureichend organisiert和verwaltet將。修女將靜脈kleiner菩提樹der kritischen Geschaftsdaten一遍每ETL das geladen數據倉庫毛皮商業智能和數據分析。Aufgrund des Auftretens mehrerer ETL-Schritte erfordert這zweistufige Architektur regelmaßige Wartung和bietet oft努爾veraltete Daten,是laut aktuellen Umfragen馮Kaggle和毛皮Datenanalysten Fivetran靜脈großes問題和數據科學家gleichermaßen堅持。Weitere Informationen超級死haufigsten問題麻省理工學院der zweistufigen Architektur。