跳轉到主要內容
人工智能的數據

了解新年的趨勢:一個簡單的、統一的磚Lakehouse管道

分享這篇文章
試著在這篇文章中引用的筆記本。概述,推特攝入,微博分類&結果人口

對許多人來說,新的一年的開始標誌著完美的時間來做出改變。這就是為什麼,盡管偏振性質,新年決心保持啟動個人目標的一個重要傳統。

通常,他們不是非常創新,提高自己的能力,采用一種愛好,去新的地方。但在過去的兩年裏,我們共同處理全球大流行,很多人經曆了轉變心態最重要的或成功意味著什麼。我們看到這種轉變以各種各樣的方式偉大的辭職,財富的定義、新規範社交等等。

有鑒於此,2022年開始,我們幾個人在磚認為這將會是很有趣的研究流行後的生活如何影響新年決心,本質上是快照變成最受歡迎的目標和趨勢。為此,我們使用磚和Twitter API執行關鍵字搜索基於pre-trained提供的詞向量的集合手套,結果是很有趣的。

這篇文章將穿過我們如何執行這個用例利用磚,Twitter API和易得的開源工具。然後,我們將分享我們的分析的結果,我們認為真正反映時代的變化。就讓我們一探究竟吧!

為什麼磚?

首先,讓我們給一個簡短的介紹磚和為什麼它這個用例執行那麼簡單。

執行這個用例,我們需要從Twitter聚合相關的數據集,過程和準備我們的關鍵詞搜索,分類,然後將結果存儲在一個地方,以有意義的方式可以查詢和數據可視化。磚給我們提供了所有這些開箱即用的功能我們的Lakehouse平台Beplay体育安卓版本相結合的可靠性、性能和管理數據倉庫與數據的開放性和靈活性的湖泊。沒有一個外部係統需要設置。

磚Lakehouse架構的實現和促進容易三角洲湖作為托管服務,允許數據從業者利用成本效益和高度可伸縮的雲的本質對象存儲,同時使高性能查詢和可視化是建立在存儲數據。最重要的是,它所有的這一切不需要數據轉換為專有格式或注入傳統的數據倉庫。這意味著整個團隊的數據(數據科學家,分析師和數據工程師)可以執行這個用例的端到端工具最舒服和在一個開放、合作的環境。beplay娱乐ios

我們是如何做到的

數據攝取&處理

第一步是最難的在很多方麵:確定數據集我們用來捕捉全球新年決心。我們決定Twitter是最好的選擇,因為它是一個對話的平台和全球用戶基礎,很容易搜索和開發人員API。Beplay体育安卓版本自的目標是比較以前和流行後的目標,我們需要一個曆史數據集。我們使用曆史數據集提供的2015年,超過5000的新年resolution-related tweet。

為了比較,然後我們彙總的數據集使用Twitter API相關的微博從今年。首先,我們建立了一個筆記本攝取tweet和構建數據集。我們收集微博的基礎上選定的短語- # NewYearsResolutions和相關的標簽和關鍵詞12/17/2021的日期和1/2/2022之間。我們結束了相當大樣本的微博,我們隨機抽樣大約10000人更符合我們的曆史數據集的大小。

加快攝入一步,我們使用TweepyPython庫,便於與Twitter API進行交互。說句題外話,因為磚筆記本的允許混合語言,這是很容易運行shell命令所需的Python庫導入到我們的環境,然後用Python寫代碼的其餘部分。我們做一些清理工作的文本通過刪除url、標點符號和標簽。

與我們的數據準備,再一次在魔法的幫助下命令混合語言,我們一個SQL語句插入筆記本合並數據從我們的Apache火花™Dataframe青銅三角洲表。每一次Twitter API的拉力,有一些推複製多個批次;合並操作允許我們隻有推新推到我們的桌子上,避免重複。

分類和分析微博

對於這個項目,我們的一個簡化版本大獎章架構。在我們的例子中,我們降落預處理推到青銅通過合並表,他們穿過我們的分類器,然後使用另一個表合並結果插入我們的黃金。這再次突顯出合並使得它很容易把大量獨特的記錄通過管道三角洲湖之上,而無需編寫複雜的邏輯重複數據刪除。

實際tweet分類中,我們使用pre-trained手套向量(通過下載Gensim)構建相關分類和關鍵詞分類每個決議。手套向量的一個真正的好處是,他們訓練價值超過20億條的數據從Twitter。這解決的挑戰,我們沒有足夠的訓練數據的前期建設我們自己的向量。

經過討論,我們想出了這些類別*常見的新年決心主題:

  • 鍛煉
  • 學習新東西
  • 金融
  • 環保
  • 在戶外
  • 旅行
  • 健康的飲食習慣
  • 閱讀
  • 自我保健
  • 戒煙

*我們也有一個“其他”類別的所有微博不符合上麵的話題。我們沒有使用另一類以來我們的分析大部分這些tweet包括廣告、諷刺或有趣的評論,惡意破壞和其他不相關的信息

我們想出了幾個種子為每個類別關鍵字,然後手套提供額外的最相關的關鍵字,給我們一個我們分類的基礎。

現在我們每個類別播種與大量的關鍵字,我們每個tweet穿過分類器來確定主要類別。我們通過計算的數量從每個類別關鍵字出現在每個tweet:哪個類別匹配關鍵字最多的是我們如何分類。

我們執行這個過程為2015年和2022年的數據集。使用磚,我們寫了這些成黃金三角洲表和能夠快速開發可視化磚的SQL。這是最終的產品,是我們分析的基礎,我們將深入介紹如下:

一窺大流行後的心態

而2015數據集包括human-labeled話題,我們執行上述過程為2015年和2022年的數據集進行分類的所有微博根據我們選擇的類別為了得到一個一致的觀點。

現在我們的數據科學完成,隻是使用這些數據和可視化實際提取的見解。我們進行分析和非常驚訝多麼不同的兩年的決議。這裏有一個總結我們的研究結果:

身體健康越來越感興趣

“吃好”和“加強鍛煉”的最典型的新年決心。但當我們比較2015年和2022年,很明顯,有一個更有意義的轉變。

2015年,自我保健——通常用於描述總體幸福感強調生理和心理行為,念力等,最常見的新年決心。2022年這個主題仍然是強大的,因為它是第二個最受歡迎的決議。

然而,與之形成鮮明對比的是增加關注身體健康的目標。大流行前,健康飲食不是非常關注的重點,隻占12.5%的tweet。健康飲食在2022年幾乎翻了一番,這使得在Twitter上最高分辨率。這種戲劇性的變化完全意義的上下文。對我們許多人來說,健康風險和疾病的流行推動思想的我們的思想。雖然可能不是COVID-19直接相關,這不是令人驚訝的看到人們設定目標周圍采用整體健康的生活方式和飲食習慣。

更少的學習欲望

兩年另一個明顯的區別是在學習新東西的類別,可以描述任何從撿起一個新的愛好,擴大整體知識獲得的技能。正如你所看到的,2015表現出巨大的興趣在學習新的東西和受歡迎程度排名# 2。然而,在2022年,這一數字從13%下降到不足9%,碰撞# 5。

像一個健康的飲食,可以認為這種轉變是對過去兩年的回應。在這個時間段,人們不得不花更多的時間在家裏,通常除了朋友和愛人。自然,沒有娛樂和外出的典型途徑,我們中的許多人有充足的時間來探索新的途徑和愛好。但兩年,這並不奇怪,人很疲勞'學習'或者已經達到這些目標,準備提交不同的東西,例如行為來改善健康。

有些東西永遠不會改變

重要的是要注意,雖然發生了很多變化,很多還保持不變的人們關心和他們的個人動機。

一個穩定的新年決心是閱讀。雖然很高興看到閱讀高這兩年,這有點奇怪,因為學習新的經驗經過2022年的下滑。然而,2022年仍然是一個首要任務的能力可以解釋為疲勞在連接網絡(例如,變焦會議和快樂小時)和更多的時間在線或流媒體服務。有鑒於此,實際看來,很多人都準備休息從互聯網的娛樂和探索不同的大道。

另一個常數,是令人興奮的看到一致的關注自我保健。,正如上麵提到的,它失去了發現# 1決議,沒有大的變化在2015年和2021年之間(分別為22.3%和19.5%)。考慮到壓力和未知自2019年以來,我們所能說的是我們很高興看到人們仍優先照顧自己的需要和健康。

結論

這些隻是我們的一些見解從比較2015年和2022年新年的決議,但它們確實建議不斷轉變我們的個人目標和利益。更是如此,這個用例表明Dabricks Lakehouse真正是一個統一的平台。Beplay体育安卓版本涉及每一個隊友能夠執行這個用例的方方麵麵在磚上,和做很快beplay娱乐ios協作

新Lakehouse嗎?看看這篇博客從我們的合夥人架構的概述,以及它如何可以利用跨數據團隊。

免費試著磚

相關的帖子

看到所有數據策略的帖子
Baidu
map