跳到主要內容

術語表

無所不包的

什麼是事務?在數據庫和數據存儲係統的上下文中,事務是被視為單個工作單元的任何操作,該操作要麼完全完成,要麼根本不完成,從而使存儲係統處於不利狀態{…}
梯度下降是機器學習和深度學習算法中最常用的優化方法。它被用來訓練機器學習模型。梯度下降有三種主要類型{…}
什麼是替代數據?替代數據是通過使用其他人沒有使用的替代數據源收集的信息;非傳統信息來源。對替代數據的分析可以提供超出現有數據的見解{…}
異常檢測是一種識別罕見事件或觀測結果的技術,這些事件或觀測結果在統計上與其他觀測結果不同,從而引起懷疑。這種“反常”行為通常會轉化為某種問題,比如{…}
什麼是Apache Hive?Apache Hive是一款開源數據倉庫軟件,用於讀取、寫入和管理從Apache Hadoop分布式文件係統(HDFS)中提取的大型數據集,HDFS是大型Hadoop生態係統的一個方麵。與exten{…}
什麼是阿帕奇庫杜?Apache Kudu是為Apache Hadoop開發的免費、開源的柱狀存儲係統。它是一個用於結構化數據的引擎,支持對單個行進行毫秒級的低延遲隨機訪問{…}
什麼是阿帕奇麒麟?Apache Kylin是一個用於交互式大數據分析的分布式開源在線分析處理(OLAP)引擎。Apache Kylin在Hadoop/S上提供SQL接口和多維分析(OLAP){…}
什麼是Apache Spark?Apache Spark是一個用於大數據工作負載的開源分析引擎。它可以處理批處理以及實時分析和數據處理工作負載。Apache Spark開始於2009年,當時是Apache的一個研究項目{…}
什麼是Apache Spark as a Service?Apache Spark是一個用於快速實時大規模數據處理的開源集群計算框架。自2009年在加州大學伯克利分校的AMPLab誕生以來,Spark已經取得了長足的發展。目前是ra{…}
什麼是人工神經網絡?人工神經元網絡(artificial neural network, ANN)是一種仿照人腦神經元運作的計算係統。人工神經網絡是如何工作的?人工神經網絡可以得到最好的評價{…}
什麼是自動化偏差?自動化偏見是對自動化輔助和決策支持係統的過度依賴。隨著自動化決策輔助工具的可用性越來越多地添加到重症監護病房等關鍵決策環境中,{…}
什麼是貝葉斯神經網絡?貝葉斯神經網絡(BNNs)是指通過後驗推理擴展標準網絡以控製過擬合。從更廣泛的角度來看,貝葉斯方法使用統計方法{…}
在Hadoop發明之前,支撐現代存儲和計算係統的技術都是相對基礎的,這使得公司主要局限於分析“小數據”。即使是這種關係{…}
生物信息學是一門利用計算從大量生物數據中提取知識的研究領域。生物信息學是指在生物技術中使用信息技術來存儲、檢索、組織和分析生物數據。{…}
Spark SQL的核心是Catalyst優化器,它以一種新穎的方式利用高級編程語言特性(例如Scala的模式匹配和準引號)來構建可擴展的查詢優化器。Catalyst是基於函數式程序的{…}
什麼是複雜事件處理(CEP) ?複雜事件處理[CEP]也被稱為事件、流或事件流處理,是在將數據存儲到數據庫之前或在某些情況下不存儲數據之前使用技術來查詢數據{…}
連續應用程序是實時響應數據的端到端應用程序。特別是,開發人員希望使用單一的編程接口來支持連續應用程序的各個方麵,這些方麵目前是分開處理的{…}
在深度學習中,卷積神經網絡(CNN或ConvNet)是一類深度神經網絡,通常用於識別圖像中存在的模式,但它們也用於空間數據分析、計算機視覺、自然語言{…}
什麼是數據分析平台?Beplay体育安卓版本數據分析平台是一個服務和技術的生態Beplay体育安卓版本係統,需要對大量、複雜和動態的數據執行分析,允許您檢索、組合、交互、探索和可視化{…}
什麼是數據治理?數據治理是確保數據帶來價值並支持業務策略的監督。數據治理不僅僅是一個工具或過程。它使用f將與數據相關的需求與業務策略對齊{…}
什麼是數據湖屋?數據湖屋是一種新的、開放的數據管理體係結構,它將數據湖的靈活性、成本效率和規模與數據倉庫的數據管理和ACID事務結合起來,支持業務int{…}
什麼是數據集市?數據集市是一個精心策劃的數據庫,包括一組表,旨在滿足單個數據團隊、社區或業務線(如營銷或工程部門)的特定需求。它通常很小{…}
什麼是數據共享?數據共享是將相同的數據提供給一個或多個消費者的能力。如今,不斷增長的數據量已經成為任何公司的戰略資產。共享數據——在組織內部或外部{…}
什麼是數據倉庫?數據倉庫是一種用於構建企業級分析數據倉庫的數據建模設計模式。數據倉庫有三種類型的實體:集線器、鏈接和衛星。中心代表核心業務概念,{…}
什麼是數據倉庫?數據倉庫是一種數據管理係統,它以業務友好的方式存儲來自多個來源的當前和曆史數據,以便更容易地進行洞察和報告。數據倉庫通常用於業務i{…}
Databricks運行時是一組運行在Databricks管理的機器集群上的軟件構件。它包括Spark,但也添加了許多組件和更新,極大地提高了可用性、性能和安全性{…}
什麼是數據幀?DataFrame是一種數據結構,它將數據組織成一個由行和列組成的2維表,很像電子表格。dataframe是現代數據分析中最常用的數據結構之一,因為它們是{…}
數據集是Spark針對Java和Scala的結構化API的類型安全版本。這個API在Python和R中是不可用的,因為它們是動態類型的語言,但它是用Scala和Java編寫大型應用程序的強大工具。Recal{…}
什麼是深度學習?深度學習是機器學習的一個子集,涉及大量數據,算法受到人腦結構和功能的啟發,這就是為什麼經常提到深度學習模型{…}
什麼是需求預測?需求預測是預測消費者需求(相當於未來收入)的過程。具體來說,它利用定量和定性數據預測消費者將購買的產品種類。受潮濕腐爛{…}
密集張量將值存儲在一個連續的連續內存塊中,所有值都表示在其中。張量或多維數組被用於不同的多維數據分析應用。有一些軟件的刺激{…}
什麼是數碼雙胞胎?數字雙胞胎的經典定義是;“數字雙胞胎是一種虛擬模型,旨在準確地反映一個物理對象。”- IBM[KVK4]對於離散或連續的製造過程,數字孿生集合{…}
什麼是DNA序列?DNA序列是確定DNA核苷酸(脫氧核糖核酸)精確序列的過程。對DNA進行四種化學成分的排序——腺嘌呤、鳥嘌呤、胞嘧啶和胸腺嘧啶{…}
Delta Live Tables (DLT)可以輕鬆構建和管理可靠的數據管道,從而在Delta Lake上交付高質量的數據。,在Databricks  上了解更多關於ETL的信息;什麼是ETL?作為am{…}
特征工程,也稱為數據預處理,是將原始數據轉換為可用於開發機器學習模型的特征的過程。介紹f的基本概念{…}
基因組學是遺傳學中的一個領域,涉及生物基因組的測序和分析。它的主要任務是確定DNA的整個序列或組成DNA的原子的組成以及DN之間的化學鍵{…}
什麼是Hadoop集群?Apache Hadoop是一個開源的、基於java的軟件框架和並行數據處理引擎。它使大數據分析處理任務被分解成可以並行執行的更小的任務{…}
HDFS HDFS (Hadoop Distributed File System)是Hadoop應用的主存儲係統。這個開源框架的工作原理是在節點之間快速傳輸數據。它經常被需要處理和存儲大數據的公司使用。{…}
什麼是Hadoop生態係統?Apache Hadoop生態係統是指Apache Hadoop軟件庫的各個組件;它包括開源項目以及一係列完整的補充工具。的一些最著名的工具{…}
在計算中,哈希表[哈希映射]是一種數據結構,它基於鍵[唯一的字符串或整數]提供對對象的虛擬直接訪問。哈希表使用哈希函數計算到桶或槽數組的索引,從中{…}
什麼是Hive Date函數?Hive提供了許多內置函數來幫助我們處理和查詢數據。這些函數提供的一些功能包括字符串操作、日期操作、類型轉換、條件{…}
什麼是托管Spark?Apache Spark是一個針對大數據的快速通用集群計算係統,圍繞速度、易用性和高級分析構建,最初於2009年在加州大學伯克利分校建立。它提供了Scala、Java、Py的高級api{…}
木星筆記本是什麼?Jupyter Notebook是一個開源的網絡應用程序,允許數據科學家創建和共享文檔,其中包括實時代碼、方程和其他多媒體資源。木星筆記本的用途是什麼{…}
什麼是Keras模型?Keras是一個高級的深度學習庫,建立在Theano和Tensorflow之上。它是用Python編寫的,提供了一種幹淨方便的方式來創建一係列深度學習模型。Keras已成為其中之一{…}
什麼是零售湖屋?Lakehouse for Retail是Databricks推出的第一個針對特定行業的Lakehouse。它通過解決方案加速器、數據共享功能和合作夥伴生態係統幫助零售商快速啟動和運行。Lakehouse佛{…}
Lambda架構是什麼?Lambda體係結構是一種處理大量數據的方法(例如。“大數據”),以混合方式提供批處理和流處理方法的訪問。Lambda體係結構用於求解{…}
Apache Spark的機器學習庫(MLlib)設計簡單,可伸縮性強,易於與其他工具集成。憑借Spark的可擴展性、語言兼容性和速度,數據科學家可以專注於他們的數據問題和mod{…}
什麼是機器學習模型?機器學習模型是一種程序,可以從以前未見過的數據集中發現模式或做出決定。例如,在自然語言處理中,機器學習模型可以解析並正確識別{…}
什麼是托管Spark?通過托管Spark服務,您可以利用開源數據工具進行批處理、查詢、流和機器學習。通過使用這樣的自動化,您將能夠快速地按需創建集群{…}
什麼是MapReduce?MapReduce是Apache Hadoop生態係統中的一個基於java的分布式執行框架。它通過公開開發人員實現的兩個處理步驟來消除分布式編程的複雜性:1)映射和{…}
Delta pipeline提供了一組用於管理數據管道生命周期的api和UI。這個開源框架幫助數據工程團隊簡化ETL開發,提高數據{…}
什麼是勳章架構?獎章體係結構是一種數據設計模式,用於邏輯地組織湖屋中的數據,其目標是在數據流經ea時遞增地改進數據的結構和質量{…}
通常在運行機器學習算法時,它涉及一係列任務,包括預處理、特征提取、模型擬合和驗證階段。例如,當對文本文檔進行分類時,可能涉及到文本分割和c{…}
什麼是MLOps?MLOps代表機器學習操作。MLOps是機器學習工程的核心功能,專注於簡化將機器學習模型投入生產的過程,然後維護和監控它們。米{…}
模型風險管理是指對基於不正確或誤用模型的決策的潛在不利後果的風險進行監督。風險管理模型的目的是采用技術和實踐來識別、測量和管理風險{…}
如果底層表是Databricks Delta Tables . , Databricks支持多語句事務。這意味著事務中的所有語句都是atomi的{…}
什麼是神經網絡?神經網絡是一種計算模型,其分層結構類似於大腦中神經元的網絡結構。它的特點是相互連接的處理元素被稱為神經元,它們一起工作產生輸出{…}
什麼是開放銀行?開放銀行是一種安全的方式,可以訪問消費者的金融數據,這一切都取決於客戶的同意。²在監管、技術和競爭動態的推動下,開放銀行要求客戶服務民主化{…}
什麼是編製?編排是對多個計算機係統、應用程序和/或服務的協調和管理,將多個任務串在一起以執行更大的工作流或流程。這些過程可以由{…}
什麼是整體設備效能?總體設備效率(OEE)是一種衡量製造操作在計劃期間(設備、時間和材料)與其全部潛力相比利用程度的指標{…}
說到數據科學,可以毫不誇張地說,通過使用pandas DataFrame充分發揮其潛力,您可以改變您的業務工作方式。為此,您需要正確的數據結構。這些會幫助你更好{…}
什麼是拚花?Apache Parquet是一種開源的、麵向列的數據文件格式,設計用於高效的數據存儲和檢索。它提供了高效的數據壓縮和編碼方案,增強了處理複雜數據的性能{…}
什麼是個性化理財?金融產品和服務正變得越來越商品化,隨著媒體和零售行業對個性化體驗的偏好增加,消費者也變得越來越挑剔。,仍{…}
什麼是預測分析?預測分析是一種高級分析,它使用新的和曆史數據來確定模式並預測未來的結果和趨勢。預測分析如何工作?預測分析{…}
什麼是預測性維護?簡而言之,預測性維護就是根據資產的實際狀況或狀態,確定何時應該維護資產,以及需要執行哪些具體的維護活動{…}
PyCharm是一種用於計算機編程的集成開發環境(IDE),為Python編程語言創建。當在Databricks上使用PyCharm時,默認情況下PyCharm會創建一個Python虛擬環境,但您可以配置為創建一個Python虛擬環境{…}
PySpark是什麼?Apache Spark是用Scala編程語言編寫的。PySpark的發布是為了支持Apache Spark和Python的協作,它實際上是一個用於Spark的Python API。此外,PySpark可以幫助您連接wi{…}
什麼是零售業的實時數據?實時零售就是實時獲取數據。從麵向批處理的訪問,分析和計算將允許數據“始終在線”,從而推動準確、及時的決策和商業智能。{…}
RDD從一開始就是Spark中主要的麵向用戶的API。本質上,RDD是不可變的數據元素的分布式集合,在集群中的節點之間進行分區,可以與低級API並行操作{…}
什麼是雪花模式?雪花模式是一種多維數據模型,它是星型模式的擴展,其中維表被分解為子維。雪花模式通常用於業務智能和re{…}
如果你正在使用Spark,你會遇到三個api:數據框架、數據集和rdd。什麼是彈性分布式數據集?RDD或彈性分布式數據集,是分布式計算記錄的集合{…}
Spark應用程序由一個驅動進程和一組執行程序進程組成。驅動進程運行你的main()函數,位於集群中的一個節點上,負責三件事:維護Spark應用程序的信息;res{…}
Spark Elasticsearch是什麼?Spark Elasticsearch是一個NoSQL分布式數據庫,用於存儲、檢索和管理麵向文檔的半結構化數據。它是一個開源的GitHub搜索引擎,基於Apache Lucene和r{…}
許多數據科學家、分析師和一般商業智能用戶依賴交互式SQL查詢來探索數據。Spark SQL是一個用於結構化數據處理的Spark模塊。它提供了一種名為DataFrames的編程抽象{…}
Apache Spark Streaming是Apache Spark的上一代流引擎。Spark Streaming不再有更新,它是一個遺留項目。在Apache Spark中有一個更新且更容易使用的流引擎,稱為Structured Stre{…}
什麼是Spark性能調優?Spark Performance Tuning是指調整設置以記錄係統使用的內存、內核和實例的過程。這一過程保證了Spark具有完美的性能,也防止{…}
什麼是Sparklyr?Sparklyr是一個開源包,提供R和Apache Spark之間的接口。現在,您可以在現代R環境中利用Spark的功能,因為Spark能夠通過小l與分布式數據進行交互{…}
SparkR是一個在Spark上運行R的工具。它遵循與Spark所有其他語言綁定相同的原則。要使用SparkR,隻需將其導入環境並運行代碼。它與Python API非常相似,隻是它遵循{…}
Python提供了一個稱為numpy的內置庫來操作多維數組。這個庫的組織和使用是開發pytensor庫的主要需求。Sptensor是一個表示稀疏張量的類。水療中心{…}
什麼是星型模式?星型模式是一種多維數據模型,用於組織數據庫中的數據,使其易於理解和分析。星型模式可以應用於數據倉庫、數據庫、數據集市和其他工具。聖{…}
流分析是如何工作的?流分析,也稱為事件流處理,是通過使用連續查詢(稱為事件流)對大量當前和“動態”數據池進行分析。這些流是由{…}
結構化流是一個用於流處理的高級API,在Spark 2.2中已經可以用於生產。結構化流允許您使用Spark的結構化api在批處理模式下執行相同的操作,並在壓力下運行它們{…}
2015年11月,穀歌發布了用於機器學習的開源框架,並將其命名為TensorFlow。它支持深度學習、神經網絡和cpu、gpu和gpu集群上的一般數值計算。最大的進步之一{…}
什麼是Tensorflow Estimator API?估計器表示一個完整的模型,但對較少的用戶來說也足夠直觀。Estimator API提供了訓練模型、判斷模型準確性和生成預測的方法。TensorFlow{…}
什麼是轉換?在Spark中,核心數據結構是不可變的,這意味著一旦創建就不能更改。乍一看,這似乎是一個奇怪的概念,如果你不能改變它,你應該如何使用它?為了“改變”{…}
鎢項目是什麼?Tungsten是對Apache Spark執行引擎進行更改的傘形項目的代號,該項目專注於大幅提高Spark應用程序的內存和CPU效率,以推動性能{…}
Facebook在今年的F8期間宣布了統一人工智能(UAI)。它彙集了Facebook創建和外包的2個特定的深度學習框架——PyTorch專注於假設訪問大規模計算的研究{…}
統一數據分析是一種新的解決方案,它將數據處理與人工智能技術統一起來,使企業組織更容易實現人工智能,並使他們能夠加速其人工智能計劃。統一數據分析使它成為e{…}
Databricks的統一數據分析平台通過將數據科學與工程和業務統一起Beplay体育安卓版本來,幫助組織加速創新。使用Databricks作為您的統一數據分析平台,您可以快速準備和清理大量數據Beplay体育安卓版本{…}
什麼是統一數據倉庫?統一的數據庫(也稱為企業數據倉庫)保存了組織的所有業務信息,並使整個公司都可以訪問這些信息。現在大多數公司都把數據管理在{…}
Apache Hadoop是一個開源的、基於java的軟件平台,用於管理大數據應用程序的數據處理和存儲。Beplay体育安卓版本該平台的Beplay体育安卓版本工作原理是將Hadoop大數據和分析工作分布到計算集群中的節點上,從而打破它們{…}
Baidu
map