LZO壓縮文件

由於許可限製,在Databricks集群上默認情況下LZO壓縮編解碼器不可用。要讀取LZO壓縮文件,必須使用初始化腳本在啟動時在群集上安裝編解碼器。

本文包括兩本筆記本:

  • Init LZO壓縮文件

    • 構建LZO編解碼器。

    • 創建一個初始化腳本:

    • 安裝LZO壓縮庫和lzop命令,並將LZO編解碼器複製到適當的類路徑。

    • 配置Spark使用LZO壓縮編解碼器。

  • 讀取LZO壓縮文件-使用init腳本安裝的編解碼器。

Init LZO壓縮文件筆記本

在新標簽頁打開筆記本

閱讀LZO筆記本壓縮文件

在新標簽頁打開筆記本