之前的發明Hadoop、技術支撐現代存儲和計算係統相對基礎,限製公司主要分析“小數據。”Even this relatively basic form of analytics could be difficult, though, especially the integration of new data sources. With traditional data analytics, which relies on the use of relational databases (like SQL databases), made up of tables of structured data, every byte of raw data needs to be formatted in a specific way before it can be ingested into the database for analysis. This often lengthy process, commonly known as提取、轉換、加載(ETL)需要為每個新數據源。這3部分的過程和方法的主要問題是它令人難以置信的時間和勞動密集型的,有時需要18個月數據科學家和工程師來實現或改變。
不過,一旦數據在數據庫,對數據分析師在大多數情況下是很容易查詢和分析。但隨之而來的互聯網、電子商務、社交媒體、移動設備、營銷自動化、物聯網(物聯網)設備,等等,尺寸,體積,和原始數據的複雜性成為太多除了少數機構分析的正常業務。大數據分析是經常檢查大型複雜的過程和不同的數據集或大數據,生成的各種來源,如電子商務、移動設備、社交媒體和互聯網的事情(物聯網)。它包括整合不同數據源,將非結構化數據轉換為結構化數據和生成的見解從數據使用專門的工具和技術,分散在整個網絡數據處理。存在的數字數據量增長速度快,每兩年增加一倍。大數據分析的解決方案,是一種不同的方法來管理和分析所有這些數據源。而傳統數據分析一般仍然適用的原則,大數據分析的規模和複雜性要求開發新的方法來存儲和處理海量結構化和非結構化數據。更快的速度和更大的存儲容量的需求創造了一個真空技術,很快就由新存儲方法,如數據倉庫和數據的湖泊,像NoSQL和非關係數據庫,以及數據處理和數據管理技術和框架,例如開源Apache Hadoop,火花,蜂巢。大數據分析利用先進的分析技術來分析非常大的數據集,包括結構化、半結構化和非結構化數據,從各種來源,不同大小的tb字節。
大數據分析可以幫助組織利用他們的數據和使用先進的數據科學技術和方法,如自然語言處理、深度學習,機器學習,發現隱藏模式,未知的相關性,市場趨勢和客戶偏好,確定新的機遇和做出更明智的業務決策。