術語表
無所不包的
什麼是Apache Hive?Apache Hive是一款開源數據倉庫軟件,用於讀取、寫入和管理從Apache Hadoop分布式文件係統(HDFS)中提取的大型數據集,HDFS是大型Hadoop生態係統的一個方麵。與exten{…}
什麼是阿帕奇麒麟?Apache Kylin是一個用於交互式大數據分析的分布式開源在線分析處理(OLAP)引擎。Apache Kylin在Hadoop/S上提供SQL接口和多維分析(OLAP){…}
什麼是Apache Spark?Apache Spark是一個用於大數據工作負載的開源分析引擎。它可以處理批處理以及實時分析和數據處理工作負載。Apache Spark開始於2009年,當時是Apache的一個研究項目{…}
什麼是Apache Spark as a Service?Apache Spark是一個用於快速實時大規模數據處理的開源集群計算框架。自2009年在加州大學伯克利分校的AMPLab誕生以來,Spark已經取得了長足的發展。目前是ra{…}
什麼是人工神經網絡?人工神經元網絡(artificial neural network, ANN)是一種仿照人腦神經元運作的計算係統。人工神經網絡是如何工作的?人工神經網絡可以得到最好的評價{…}
Spark SQL的核心是Catalyst優化器,它以一種新穎的方式利用高級編程語言特性(例如Scala的模式匹配和準引號)來構建可擴展的查詢優化器。Catalyst是基於函數式程序的{…}
什麼是數據分析平台?Beplay体育安卓版本數據分析平台是一個服務和技術的生態Beplay体育安卓版本係統,需要對大量、複雜和動態的數據執行分析,允許您檢索、組合、交互、探索和可視化{…}
什麼是數據湖屋?數據湖屋是一種新的、開放的數據管理體係結構,它將數據湖的靈活性、成本效率和規模與數據倉庫的數據管理和ACID事務結合起來,支持業務int{…}
什麼是數據幀?DataFrame是一種數據結構,它將數據組織成一個由行和列組成的2維表,很像電子表格。dataframe是現代數據分析中最常用的數據結構之一,因為它們是{…}
數據集是Spark針對Java和Scala的結構化API的類型安全版本。這個API在Python和R中是不可用的,因為它們是動態類型的語言,但它是用Scala和Java編寫大型應用程序的強大工具。Recal{…}
Delta Live Tables (DLT)可以輕鬆構建和管理可靠的數據管道,從而在Delta Lake上交付高質量的數據。,在Databricks  上了解更多關於ETL的信息;什麼是ETL?作為am{…}
HDFS HDFS (Hadoop Distributed File System)是Hadoop應用的主存儲係統。這個開源框架的工作原理是在節點之間快速傳輸數據。它經常被需要處理和存儲大數據的公司使用。{…}
什麼是Hadoop生態係統?Apache Hadoop生態係統是指Apache Hadoop軟件庫的各個組件;它包括開源項目以及一係列完整的補充工具。的一些最著名的工具{…}
什麼是Hive Date函數?Hive提供了許多內置函數來幫助我們處理和查詢數據。這些函數提供的一些功能包括字符串操作、日期操作、類型轉換、條件{…}
什麼是托管Spark?Apache Spark是一個針對大數據的快速通用集群計算係統,圍繞速度、易用性和高級分析構建,最初於2009年在加州大學伯克利分校建立。它提供了Scala、Java、Py的高級api{…}
木星筆記本是什麼?Jupyter Notebook是一個開源的網絡應用程序,允許數據科學家創建和共享文檔,其中包括實時代碼、方程和其他多媒體資源。木星筆記本的用途是什麼{…}
什麼是Keras模型?Keras是一個高級的深度學習庫,建立在Theano和Tensorflow之上。它是用Python編寫的,提供了一種幹淨方便的方式來創建一係列深度學習模型。Keras已成為其中之一{…}
什麼是零售湖屋?Lakehouse for Retail是Databricks推出的第一個針對特定行業的Lakehouse。它通過解決方案加速器、數據共享功能和合作夥伴生態係統幫助零售商快速啟動和運行。Lakehouse佛{…}
Apache Spark的機器學習庫(MLlib)設計簡單,可伸縮性強,易於與其他工具集成。憑借Spark的可擴展性、語言兼容性和速度,數據科學家可以專注於他們的數據問題和mod{…}
什麼是MapReduce?MapReduce是Apache Hadoop生態係統中的一個基於java的分布式執行框架。它通過公開開發人員實現的兩個處理步驟來消除分布式編程的複雜性:1)映射和{…}
說到數據科學,可以毫不誇張地說,通過使用pandas DataFrame充分發揮其潛力,您可以改變您的業務工作方式。為此,您需要正確的數據結構。這些會幫助你更好{…}
PyCharm是一種用於計算機編程的集成開發環境(IDE),為Python編程語言創建。當在Databricks上使用PyCharm時,默認情況下PyCharm會創建一個Python虛擬環境,但您可以配置為創建一個Python虛擬環境{…}
PySpark是什麼?Apache Spark是用Scala編程語言編寫的。PySpark的發布是為了支持Apache Spark和Python的協作,它實際上是一個用於Spark的Python API。此外,PySpark可以幫助您連接wi{…}
Spark Elasticsearch是什麼?Spark Elasticsearch是一個NoSQL分布式數據庫,用於存儲、檢索和管理麵向文檔的半結構化數據。它是一個開源的GitHub搜索引擎,基於Apache Lucene和r{…}
Apache Spark Streaming是Apache Spark的上一代流引擎。Spark Streaming不再有更新,它是一個遺留項目。在Apache Spark中有一個更新且更容易使用的流引擎,稱為Structured Stre{…}
什麼是Sparklyr?Sparklyr是一個開源包,提供R和Apache Spark之間的接口。現在,您可以在現代R環境中利用Spark的功能,因為Spark能夠通過小l與分布式數據進行交互{…}
SparkR是一個在Spark上運行R的工具。它遵循與Spark所有其他語言綁定相同的原則。要使用SparkR,隻需將其導入環境並運行代碼。它與Python API非常相似,隻是它遵循{…}
2015年11月,穀歌發布了用於機器學習的開源框架,並將其命名為TensorFlow。它支持深度學習、神經網絡和cpu、gpu和gpu集群上的一般數值計算。最大的進步之一{…}
什麼是Tensorflow Estimator API?估計器表示一個完整的模型,但對較少的用戶來說也足夠直觀。Estimator API提供了訓練模型、判斷模型準確性和生成預測的方法。TensorFlow{…}
Databricks的統一數據分析平台通過將數據科學與工程和業務統一起Beplay体育安卓版本來,幫助組織加速創新。使用Databricks作為您的統一數據分析平台,您可以快速準備和清理大量數據Beplay体育安卓版本{…}
Apache Hadoop是一個開源的、基於java的軟件平台,用於管理大數據應用程序的數據處理和存儲。Beplay体育安卓版本該平台的Beplay体育安卓版本工作原理是將Hadoop大數據和分析工作分布到計算集群中的節點上,從而打破它們{…}