PY => Modin(Ray)加速Pandas大熊貓

前言

用過Pandas的都知道,數據大了後,處理很慢。so, modin在Pandas基礎上封裝一層透明殼。
而且依賴ray能實現多進程pandas操做。html

特點:一行代碼實現Pandas加速。。。linux

安裝依賴環境

原生windows(不支持)

WSL(支持)

WSL就是 (Windows Sub Linux) windows內嵌的linux子系統,自行百度
sudo pip3 install psutil
sudo pip3 install setproctitle

pip install modin[ray]

WSL 不建議接觸,我是感受沒啥用。(當心你的C盤~~~)
除非你Aliyun, TencentCloud, VirtualBox, VMWare,都懶得用。。。

Linux/kaggle(支持)

modin 依賴 ray (因此用了pip的 [] 語法): 一條命令便可windows

pip install modin[ray]

不瞭解pip新鮮語法的,能夠見官檔: https://pip.pypa.io/en/stable...code

MacOS(支持,買不起)

導入

import ray
import modin.pandas as pd
    # 這個導入很眼熟不, 沒錯,就是 多了個   "modin.", 用法和原生pandas沒什麼區別

使用

ray.init(num_cpus=4, ignore_reinit_error=True)    
# 第一個參數充分利用4核CPU。
# 第二個參數 ignore_reinit_error=True, 忽略重複初始化的 而產生的報錯。
    # 若是不忽略,那麼你用Jupyter運行時:
        # 第一次會調用正常運行。
        # 而以後每次重複調用就會報錯。 因此這個參數最好設爲True
        
pd.DataFrame()
...
...
按原生pandas的語法正常使用便可。。。

Modin官檔

https://modin.readthedocs.io/...htm

相關文章
相關標籤/搜索