跳轉到主要內容
公司博客上

Scribd如何使用三角洲湖,使世界上最大的數字圖書館嗎

分享這篇文章

得到一個O ' reilly的新電子書的早期預覽一步一步的指導你需要開始使用三角洲湖。


Scribd使用三角洲湖,使世界上最大的數字圖書館。看這個討論QP侯,高級工程師在Scribd和氣流提交者,和R泰勒突堤,Scribd平台工程主管學習他們如何從遺留AWS和他們如何利用本地基礎設施,實現,和優化表和δ事務日誌。Beplay体育安卓版本請注意,此會話跑住在10月,以下是所提出的問題和答案,最後的聚會。

看討論

玩這個視頻,請點擊這裏,接受餅幹

問答

下麵的問題和答案已經稍微修改由於簡潔;你可以聽聽整個談話在上麵的視頻中。

如何優化管理雲中的文件大小?例如,當你有很多的文件進入S3 bucket,對吧?這可能會增加成本,對嗎?那麼如何優化呢?如何提高性能?

所以我們選擇三角洲湖的一大原因是我們想用它來流表與我們流的工作負載。所以你可以想象,當你寫從流媒體應用程序,你基本上是創建大量的小文件。所有的這些小文件將導致重大的性能問題。幸運的是,三角洲湖有優化命令,您可以使用自動優化這些小文件和壓縮成較大的。從用戶的角度來看,它的透明加速查詢檢索。你隻需要運行優化命令來優化數據,然後一切都會照顧你的三角洲湖。

從作者的角度來看他們不真正關心的優化。客戶端(s)他們想寫任何數據表,以及你可以並發的權利。當讀者有關心小文件的問題,作者不。但優化運行是安全的,因為三角洲湖本身MVCC。所以它是安全的優化和並行寫入相同的表在同一時間。

為您的數據流是如何解鎖價值工作負載和你有你的用戶對這種類型的架構?

當我在Scribd做流媒體、實時數據處理是天上掉下的餡餅的月球探測器計劃相比,我們的大多數客戶傳統消費數據。beplay体育app下载地址

他們用於夜間運行,如果有什麼出錯了,他們可能會從現在開始的兩天的數據。但如果他們想看AB測試結果進行部署,今天上午9點出去嗎?使用傳統的批處理流程,他們會等到明天早上或直到星期六早上的最壞情況。但隨著流媒體,我們要分析它的目標是盡快創建數據時,我們想要給人希望這些數據,使用它。

有幾個非常有趣的用例開始的木製品一旦我們開始將流更多的納入平台——一個大的一個是完全出乎意料的在我們特別查詢。Beplay体育安卓版本首先,我們啟用了所有這些人們使用磚筆記本運行這些查詢。因為我們流數據差值表,從用戶的角度來看,這看起來就像任何其他表。如果你想把流數據到你的臨時工作負載和你沒有三角洲你可能教用戶如何連接到卡夫卡主題或拉到其他一些中間存儲,他們會查詢。但對我們的用戶來說,這隻是一個表填充的流和δ通過夜間批處理表的更新。它從根本上相同的接口除了一個顯然是更頻繁地刷新很多。所以用戶,在很多情況下甚至沒有意識到這一點,開始得到更快的結果,因為他們的表實際上是被湧入而不是從一個夜間批處理寫的。

這是當一些人開始認識到他們有超級大國一旦他們欣喜若狂興奮。我想最快的時間從數據生成可用的平台,我看到的東西是9秒。Beplay体育安卓版本就像九秒從事件創建web應用程序從生產磚的筆記本是可用的。當你的人習慣於48小時內的數據的最壞的情況下9秒——這就像如果你顯示飛船從1700年代的人。就像他們幾乎無法理解他們遇到的巨大的變化,從中受益

磚是怎麼幫助你的工程團隊交付嗎?

我們得到了最大的好處是生產力提高;現在我想每個人都同意工程時間比其他方法更昂貴的資源,你會購買。所以能夠節省開發的時間,這是對我們最大的勝利。

另一件事是能夠利用最新的技術標準的行業。能夠使用最新版本的Apache火花™和我不得不說磚在優化火花做了一個很好的工作。雖然不是所有的優化是可用的開源,所以當我們使用磚平台得到的所有優化我們需要更快地完成工作。Beplay体育安卓版本

回到過去,工程師們爭奪發展機器。不再是這樣,我們現在可以協作筆記本——這是一個巨大的勝利!通過在雲中運行您的開發工作流程,你可以擴展到任何一種機器你想完成你的工作。如果你需要更快地完成這項工作,你隻需要添加更多的機器和他們會更快!我必須重申,所有的工程師真的愛筆記本磚提供的接口。我認為這也的一個主要原因,我們選擇磚從一開始,我們真的很喜歡合作的經驗。beplay娱乐ios

你能告訴我們一點關於你的工作允許Scribd方便讀者使用文字嗎?

新建議可能是我們未來的最重要的一個部分;原來真正吸引我Scribd作為一個公司的業務依賴於數據平台。Beplay体育安卓版本Scribd的未來的成功是真的,真的與我們如何構建交織在一起,規模和成熟我們的推薦引擎,我們的搜索模型,我們的能力來處理內容和用戶,他們會發現引人注目的和有趣的。因為數據與我們的核心內容(音頻書籍、書籍、文件、等等),使Scribd是核心價值和使Scribd成功。之間有很短的線,如果我們做一個更好的數據平台,如果我可以建議工程師做一個更好的無論他們做什麼,這是立即為公司更大的成功。Beplay体育安卓版本所以對我們來說,推薦和搜索是如此重要的商業和我們的工作在數據平台上非常關鍵的功能是直接影響,真正令人興奮的但這也意味著我們必須做正確的事情!Beplay体育安卓版本

稍微回循環技術方麵的東西,我想提到三角洲湖使我們建立更好的推薦係統。作為泰勒前麵所提到的,我們每天日常批處理運行的管道。你可以想象,如果用戶點擊或表達一個意圖,他們喜歡這種類型的內容,如果他們隻有後沒有新的建議嗎?這不是好的用戶體驗。

與三角洲湖,我們現在流用戶意圖進入我們的數據係統和機器學習管道。現在,我們可以對用戶請求實時或接近實時提供更好和更新鮮推薦給用戶。我認為這是證明有正確的技術工程團隊提示解鎖所有這些可能性團隊構建產品之前是不可能做到的。所以我認為這是一件大事,我們從使用三角洲湖。

看這裏的討論:https://youtu.be/QF180xOo0Gc

了解Scribd轉向磚在AWS和三角洲湖://www.eheci.com/beplay体育app下载地址customers/scribd

免費試著磚
看到所有公司博客上的帖子
Baidu
map