跳轉到主要內容
人工智能的數據

100年的恐怖電影:一個分析使用磚SQL

分享這篇文章

當談到電影的曆史,也許沒有比恐怖類型說更多關於我們人類,挖掘了我們最大的恐懼和不確定性。這樣一個巨大的範圍——從可怕的象征性來西安可怕的——我們認為這將是有趣的分析IMDb恐怖電影的相關資料我們會發現每10年,看看有什麼見解。更具體地說,我們想知道:某些分支轉移的受歡迎程度如何?最受歡迎的恐怖電影如何影響整個風格?

這篇文章將走過我們如何使用正是這樣做的磚的SQL和數據從IMDb,世界上最受歡迎的電影和權威的來源,電視和名人內容數據。我們認為這將是一個有趣的方式(尤其是在萬聖節在拐角處)來顯示是多麼容易使用磚SQL立即開始查詢數據並創建視覺快速洞察。


探索為什麼lakehouses未來的數據架構與數據倉庫的父親,Bill Inmon。

為什麼磚SQL的?

磚SQL是一種服務,它允許用戶方便地執行BI和SQL湖直接在他們的數據可靠,閃電般的分析。通常在一個數據倉庫,這需要數據團隊整合BI工具,然後花幾個小時設置通過ETL數據管道和處理數據。與磚SQL,因為我們可以直接查詢一個lakehouse,一旦我們下載數據從IMDb(見下文),我們能夠在30分鍾內幾乎立即開始查詢和創建視覺效果——都在一個平台。Beplay体育安卓版本

對於我們的分析,我們使用一個數據集從IMDb,包括超過30000個恐怖電影;我們選擇這個樣本數據集,因為它的方便,提供給開發人員。IMDb是任何電影的理想來源分析,它包括數以百萬計的可搜索的數據項,包括在800萬年的電影,電視和娛樂遊戲。IMDb還利用AWS數據交換,這使得它容易找,訂閱和在雲中使用第三方數據,提供基本元數據對於每個電影,電視和奧特係列,和視頻遊戲標題在目錄(滾動到年底這個博客IMDb作為數據源的更多信息)。

恐怖比喻通過十年的趨勢

第一個問題我們想要的答案是:看電影時的十年中,有什麼可觀察到的趨勢在特定的修辭(如怪物、主題等)?要做到這一點,我們計算詞頻率出現在每一個標題的每一個字。從那裏,我們使用這個為基礎來識別常用的“恐怖”,組織在一起。我們確定了主要的修辭,因為這些:

  • 吸血鬼
  • 萬聖節
  • 兒童玩具
  • 占有
  • 僵屍
  • 女巫
  • 怪物

簡單的單詞雲給了我們一個佳能的高級概述——顯然鬼電影製片人一直是一個受歡迎的選擇!

恐怖電影標題的文本分析過去的100年裏重申了持久的幽靈,吸血鬼,占有和恐怖類電影中的僵屍比喻。
由IMDb

讓我們看看這更緊湊。我們的方法很簡單。我們把上述比喻並創建了一個本體分類與每個比喻相關聯的電影。例如,識別電影內類別,包括我們的變化:,吵鬧鬼,精神,幻影令人難忘的。這些變化很容易由頻率表。這就是鬼的最後設置看起來像:

鬼貓
鬼,
鬼:
鬼的
捉鬼敢死隊
捉鬼敢死隊:
重影
鬼臉殺手
Ghosthunters
重影
幽靈
Ghostman
鬼魂
吵鬧鬼
幻影
幻影
精神
精神
精神
精神
靈魂
靈魂的
靈魂
靈魂
鬧鬼
鬧鬼
鬧鬼
鬧鬼:
消失
令人難忘的
鬼故事
困擾著

因為我們想看到這些不同的主題趨勢隨著時間的推移,我們使用了比喻的本體分類電影所屬。然後我們計算和可視化的分布屬於每個比喻電影的十年。結果是很有趣的!

百年不遇的受歡迎程度分析恐怖類電影中常見的主題。
由IMDb

我們的見解

正如你所看到的,20世紀初非常有限的比喻也從我們的數據集包含了最多的吸血鬼電影。有趣的是,吸血鬼,也許最著名的吸血鬼作品,出版於1897年這項工作,這是一個潛在的相關性和吸血鬼電影的流行。

另一個有趣的問題是擁有電影的高峰在70年代開始。再一次,這是有道理的時候看恐怖片佳能、驅魔人可以說是有史以來最具影響力的恐怖片之一,1973年首演。

最後,我們的數據集顯示一個巨大的怪獸電影激增,迅速在下半年逐漸減少的20世紀。這並結合佳能時間表,等受歡迎的和有影響力的電影哥斯拉,金剛生物從黑瀉湖首映在1950年代;這將是有趣的做一個深入的分析最終明白為什麼這個趨勢向下。

僵屍電影在80年代後的勢頭活死人黎明(1978),一個巨大的商業成功。但它犯了一個巨大的回歸在2000年代早期,當顯要人物僵屍電影也觸及場景:28天後,(2002),生化危機(2002年)和第一個“羅Zom Com”僵屍肖恩(2004)。這種“山寨”效果絕對是值得探索,深入的分析,我們想看看所有這些電影的收入和利潤。

結論

雖然這個博客是為了展示數據分析的力量通過一個有趣的用例(它給我們提供了一個很好的借口處理電影),更重要的是,它展示了如何簡單的采取一個相對較大的元數據集,並開始產生快速的見解與SQL和可視化。通常媒體公司正坐在各種數據但不確定如何獲取價值。我們想說明分析師熟悉SQL而不是更複雜的數據科學語言可以開始探索這些數據集創建有趣的觀眾體驗。在磚,我們都要讓事情簡單數據的所有標題和水平。

更深入娛樂用例,看看我們媒體與娛樂解決方案加速器


更多關於IMDb

數以億計的搜索的數據項,包括在800萬年的電影,電視和娛樂頭銜,1100萬多演員和船員和超過1200萬圖片,IMDb是世界上最受歡迎的電影和權威來源,名人和電視內容,結合網絡和移動用戶每月超過2億遊客。

IMDb增強了娛樂體驗讓球迷和世界各地的專業人士與演員和工作人員清單為每個電影,電視劇和視頻遊戲,一生票房票房從票房魔力,專有的電影和電視用戶評級從IMDb的全球觀眾超過2億的粉絲,等等。

從其龐大的和權威的數據庫IMDb許可證信息給第三方企業,包括電影製片廠、電視網絡、流媒體服務和有線電視公司,以及航空、電子產品製造商、非營利組織和軟件開發人員。這些企業依靠數據庫IMDb改善他們自己的客戶的經驗,電力投資決策,形狀情緒分析,通知內容收購策略,等等。beplay体育app下载地址在developer.imdb.com了解更多

免費試著磚
看到所有數據策略的帖子
Baidu
map