跳轉到主要內容
工程的博客

擴展金融時間序列分析超越個人電腦和熊貓:按需網絡研討會,幻燈片和FAQ現在可用!

分享這篇文章

2019年10月9日,我們舉辦了一個研討會——生活除了個人電腦以外的擴展金融時間序列分析和熊貓——Nakai軍政府,金融服務行業的領導者在磚,磚和裏卡多Portilla,解決方案架構師。這是一個生活網絡研討會展示在這個博客的內容民主化與磚的金融時間序列分析。

規模與Apache引發的金融時間序列分析

請找到這個研討會的幻燈片

基本的經濟數據,金融股票數據和蜱蟲替代數據如地理空間或事務數據集都是被時間,經常以不規則的間隔。解決業務問題等金融投資風險,欺詐、交易成本分析和合規最終取決於能夠並行分析數以百萬計的時間序列。老技術,RDBMS-based,不會輕易規模在分析交易策略或進行監管分析多年的曆史數據。

在這個網絡研討會我們回顧:

  • 如何構建時間序列函數在成千上萬的報價機並行使用Apache引發™。
  • 最後,如果你是一個熊貓(Python數據分析庫)用戶希望規模數據準備向金融異常檢測飼料或其他統計分析,我們使用一個市場操縱的例子來展示考拉對典型的數據擴展透明的科學工作流。

我們演示了使用這些概念 這個筆記本在磚

如果你想免費訪問統一數據分析平台Beplay体育安卓版本並嚐試我們的筆記本,你可以訪問一個免費試用

到最後,我們舉行了一個問答和下麵的問題和答案。

問:傳統BI工具查詢數據倉庫,他們現在能連接到數據磚嗎?

答:好問題。有兩種方法。是的,你可以連接你的BI工具磚直接查詢數據的湖。讓我們看看下麵這張幻燈片。

最終狀態與磚

如果你看看圖,BI工具指著其中一個管理表由Apache火花。如果你有一個總表,是特定於一條線業務(假設您創建了一個表與聚合貿易windows一整天),這可以與BI工具(例如表查詢,美人,等等。如果你需要非常低的延遲,例如,說你需要創建儀表板c級,那麼你可以查詢一個數據倉庫。

問:有沒有一種方法來有效地分配時間序列的建模,或者是基於這隻大熊貓分布的數據操作準備數據集。具體地說,我用很多SARIMAX。我試圖找出如何分配候選人SARIMAX模型的交叉驗證。

答:本課程更多的是集中在操作方麵,但火花絕對可以分發hyperparameter調優和交叉驗證。如果你有一個網格定義或者你想做一個隨機貝葉斯搜索,你需要做的是,定義獨立的問題或分區的問題。所以一個很好的例子是預測。比方說,我想要遍曆100年的不同組合,我想要改變我們是否指定每天的季節性或年度季節性,乘以不同的參數,我用ARIMA模型。然後我需要做的就是定義網格和火花可以執行一個任務每個不同的輸入向量參數。所以有效你跑到1000年或5000年預測並行。這將是首選方法是並行化預測。

問:是考拉開源?做考拉一起工作scikit-learn嗎?

是的,考拉是開源軟件。考拉肯定與scikit-learn。如果你的筆記本博客在這裏,可以有效地將這些數據結構和可以直接進入scikit-learn飼料。唯一不同的是你可以直接結構之前,你把它轉換成一個機器學習模型.ie你可能需要轉換為熊貓在最後一步。但它應該工作。兩個numpy數據結構作為橋梁。

問:作為一個團隊我們如何做代碼評審或版本控製,如果我們工作磚嗎?

博客文章實際上指出了機製。如果你想利用磚的性能方麵,計算方麵,MLFlow和所有。我們發布了所謂的磚連接。它允許您在您的本地工作IDE。如果你這樣做,你可以檢查你的代碼使用標準版本控製工具,然後部署使用詹金斯作為你通常做的。第二個選擇是磚筆記本本身與Git集成,所以你可以直接保存這個工作,你會,在一個筆記本。

問:任何資源、演示教程麵向地理空間的處理時間序列數據?例如,東西可以看過去5年的房地產數據和流量數據相結合表明,房屋密度影響交通模式。

答:這裏所強調的技術是多用途的。的加入,你當然可以使用數據集描述。它僅僅是一種調整正確的時間戳,然後選擇一個分區列。我們將考慮在隨後的博客在特定地理空間,可能會去深入的技術或庫,可以用來有效地加入地理空間數據。但是現在的加入應該為任何你想要的數據集使用工作,隻要你隻是想合並它們上下文相關的數據。

額外的資源

免費試著磚
看到所有工程的博客的帖子
Baidu
map