減少運營成本
Scribd的任務已經讓人們興奮地閱讀。數以百萬計的圖書可以在他們的在線平台,業務挑戰他們試圖解決與分析是鼓勵閱讀沒有限製通過提供正確的內容Beplay体育安卓版本,正確的人。
構建一個有效的推薦引擎的關鍵是數據,但Scribd團隊麵臨的挑戰是無法處理大規模數據集,兩個批處理和下遊流——迅速。受到嚴格的本地Hadoop基礎設施,它們在性能和維護。增加這一事實問題是小文件由超過70%的數據,導致性能差距和高運營成本。
一旦數據並使其下遊,筒倉進一步阻礙了數據團隊的生產力。數據工程無法有效地支持數據科學家,和無法共享和重用代碼和模型放緩創新。
”隨著時間的推移,業務需求已經改變了,”解釋R泰勒突堤,Scribd的主任平台工程。Beplay体育安卓版本“我們現在需要更多的實時數據處理,和更多的支持團隊合作提供新的數據產品;我們需要比我們在什麼地方更好的東西。”
Scribd團隊的第一步是遷移到雲端(AWS)利用其彈性的基礎設施和開發工具的範圍。他們轉向磚作為Lakehouse平台來簡化數據分析工作流程的管理,大大提高開發速度和跨團隊Beplay体育安卓版本協作。
有彈性的基礎設施功能優化的火花集群,三角洲湖三角洲緩存,存儲和計算的解耦,小文件的問題,困擾著工程團隊是過去的事了。三角洲湖是賦予他們建造performance-optimized關鍵數據管道,同時支持輕鬆曆史流數據。
“三角洲湖統一我們的流和批處理應用程序,讓我們更快地交付最新數據。我們也能夠流數據到S3沒有任何性能或一致性問題解決了我們的小文件問題,“表達了突堤。
三角洲湖的另一個好處是一個一致的跨組織的數據視圖。數據流作為級聯表,允許他們所有工作負載從一個表很容易訪問和使用。“三角洲湖允許用戶查找當前信息或回到過去,“突堤說。“因此,我們的數據客戶現在有一個地方去他們的需beplay体育app下载地址求,使我們的數據的力量在他們的手中。”
與數據流分析和數據科學團隊,現在他們可以通過交互式的協作和共享代碼筆記本,極大地加速發展。“磚”的互動筆記本被證明是這樣一個殺手特性為我們的開發人員和分析師,他到目前為止,被分享合作通過複製粘貼代碼,“突堤。
與一個可伸縮的高效平台,簡化基礎設施來更好地支持數據分析工作流Beplay体育安卓版本程,數據在Scribd裝備精良團隊把他們的產品更上一層樓,更吸引人的經驗,推動客戶生命周期價值和保留。
此舉在AWS磚從他們的遺產Hadoop基礎設施已經改變。基礎設施管理和數據工程已經大大簡化和優化性能。與查詢執行由磚運行時,Scribd經曆了優化最傳統的30 - 50%引發工作負載。“優化率17%,磚會降低我們的AWS基礎設施成本太多,它將支付磚平台本身的成本,“突堤。Beplay体育安卓版本
展望未來,數據在Scribd的團隊希望擴大的支持多數據流變化方程如何訪問數據,它們是如何工作的,並最終回答更多的問題,將導致更好、更個性化的顧客體驗。beplay体育app下载地址