跳轉到主要內容
人工智能的數據

主宰你的日常Wordle Lakehouse

2022年3月15日 數據策略

分享這篇文章

自從去年年底推出後,先已成為世界各地的人們每天突出。這麼多,《紐約時報》最近收購了拚圖遊戲添加到其日益增長的投資組合。在磚,有一些事情我們喜歡超過尋找新的,創新的方法來利用我們Lakehouse平台。Beplay体育安卓版本所以,我們認為:為什麼不使用它來提高我們的競爭優勢與Wordle ?

這個博客將走過我們如何執行這個用例通過分析Wordle數據識別平台上使用最頻繁的信件。Beplay体育安卓版本我們使用我們的結果很容易識別額外的單詞,可以幫助你與你的日常Wordle !

Wordle是什麼?

對於那些不熟悉,Wordle是一個簡單的每天word-solving遊戲出來。在高級別上,你有6嚐試猜5信字;在提交每個猜,玩家給出的線索有多少字母猜對了。您可以查看完整的指令(玩!)在這裏

我們的方法

這個用例,我們想要回答這個問題:最優是什麼單詞開始時打Wordle嗎?

對於我們的數據集,我們使用Wordle庫的5個字母的單詞。使用磚Lakehouse平台Beplay体育安卓版本,我們能夠攝取和淨化這個庫,執行兩種方法識別“最佳”字開始,從可視化和提取的見解,識別這兩個詞。Lakehouse這個用例是一個理想的選擇,因為它提供了一個統一的平台,使端到端分析(數據攝入- >數據分析- >商業智能);Beplay体育安卓版本使用磚筆記本的環境,我們可以輕鬆地分析組織到一個定義的過程。

數據攝取、轉換和分析過程

首先,我們提取Wordle圖書館接受5信的話從他們的網站的頁麵源為CSV。該庫包括12972字從“大呼小叫”到“zymic。”

加快攝入、轉換和分析Wordle圖書館,我們使用磚筆記本的環境,我們可以無縫地使用多種編程語言(SQL, Python, Scala, R),無論用戶是最舒服的,定義一個過程進行係統的設計和執行分析。通過使用這種環境下,我們能夠合作遍曆過程使用相同的筆記本,而不必擔心版本控製。beplay娱乐ios這簡化了整體最優的過程開始的單詞。

使用磚筆記本環境Lakehouse提供的,我們隻是從CSV文件攝入數據加載到一個表名為“wordle三角洲。“這原始表我們稱之為“青銅”數據表,按我們的大獎章架構。銅層包含我們的原始攝入和曆史數據。銀層包含我們的轉換(例如,過濾、淨化、增強)數據。金層包含聚合數據的業務水平,準備了解分析。

pyspark.sql.types進口StructType、StructField StringType
              模式= StructType ([StructField (“單詞”、StringType ()真正的)))df = spark.read.csv (“/ FileStore / wordlev2 - 1. csv”頭=“假”模式=)df.write.saveAsTable (“先”)

我們發現,攝入所需數據清理之前能夠執行分析。例如,“false”被吸收為“false”由於數據的格式保存,限製我們的能力做字符查找(沒有額外的邏輯),相當於“f f。“既然磚筆記本的環境支持多種編程語言,我們使用SQL來識別數據質量問題和淨化這些數據。我們這個數據加載到一個表稱為Wordle_Cleansed“銀”。

然後我們計算每個字母在單詞的圖書館的頻率在Wordle_Cleansed並保存結果表叫Word_Count“黃金”三角洲。

此外,我們計算每個字母的頻率在每個字母位置(p_1、p_2 p_3, p_4, p_5)在單詞和圖書館保存的結果在“黃金”三角洲表為每個位置(例如,Word_Count_p1)。最後,我們分析了Word_Count結果和每個位置表來確定場景的最優詞。現在讓我們深入的發現。

結果:整體信計數

下麵是十大字母根據字母頻率Wordle 5信中接受詞庫。分析這些信件後,我們確定最優詞開始暴漲,或年輕的鷹。您還可以使用圖來確定其他高價值的詞:

十大信頻率

結果:字母數位置

下麵是字母根據字母頻率和頂部位置Wordle接受詞庫。分析這些發行版之後,有許多不同的選項為“最佳”開始使用這種方法。例如,“關心”是一個很好的選擇。“S”是最常見的信在位置1 (P1)和P5。因為它是兩倍的頻繁在P5,我們槽。

“C”是下一個最常見的信在P1,所以我們槽,給我們“C _ _ _。”“一個”是最常見的信在P2和P3,但在P2更頻繁,所以我們槽。在P3,第二個最常見字母“R”,所以我們現在有“C R _ S”。來結束這個詞,我們看P4,“E”是最常見的信。因此,使用這種方法的“最優”開始的單詞是“關心”。

位置1

位置2

位置3

位置4

位置5

結論

當然,“最優”隻是一個戰略方麵當玩Wordle——這絕對不需要“拚圖”的遊戲。最優的現在可能會隨時間而變化!這就是為什麼我們鼓勵你嚐試這個用例。

新Lakehouse嗎?看看這個博客從我們的合夥人架構的概述,以及它如何可以利用跨數據團隊。

免費試著磚

相關的帖子

看到所有數據策略的帖子
Baidu
map