Python數據分析開發環境

準備工做

下載並安裝最新版本的Anacondahtml

下載並安裝最新版本的Visual Studio Codepython

編輯器

Tips:git

能夠選擇本身喜歡而且熟悉的編輯器或IDE。如:VIM、Emacs、Notepad++、Sublime、Pycharm等。github

若是安裝的是完整版本的Anaconda,會默認安裝Spyder以及Jupyter Notebook。那麼不想折騰編輯器的話,推薦使用這兩款應用是足夠的。sql

Visual Studio Code

推薦插件數據庫

  • Python

可選插件windows

  • vscode-icons

包管理器選擇

Conda

Conda是目前比較經常使用的包管理工具,其大體功用於pip相似,這裏使用Conda的緣由,主要在於Conda除能夠安裝python的包外,還能夠很方便的安裝其餘變成語言的包(如C++、C等)。這樣的話,就能夠很方便的解決有些數據分析的包依賴非python編寫的程序包的問題。visual-studio-code

爲了可以直接在命令行中使用conda命令,這裏將Anaconda3\Scripts目錄添加到了環境變量中。編輯器

基本使用

建立虛擬環境:conda create -n <env_name> python=<python_version_num>工具

激活虛擬環境:activate <env_name>

安裝程序包到指定虛擬環境:conda install -n <env_name> <pakcage_name>

關閉虛擬環境:deactivate

刪除虛擬環境:conda remove <env_name> --all

刪除虛擬環境中的某個包:conda remove --name <env_name> <package_name>

查看已安裝包:conda list

查看已安裝環境:conda env list

檢查更新conda:conda update conda

更新全部程序包:conda update --all

經常使用包安裝

安裝好Anaconda後,可使用Anaconda來管理包的安裝。

若是是用於學習與研究,而不用與其餘人協做或者可以有良好的約定的話,那麼能夠直接使用conda的默認的環境,這樣就能夠少安裝不少包。

REM 基礎包

conda install numpy
conda install scipy
conda install pandas
conda install matplotlib

REM ORM,用於鏈接數據庫

conda install sqlalchemy

更改Conda的下載鏡像

若是要使用的包並不包含在默認的conda環境中,又想加快下載速度與穩定性的話,能夠添加國內的下載鏡像。

在終端中執行如下命令:

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/

conda config --set show_channel_urls yes

參考:

  1. Anaconda 鏡像使用幫助

PIP

由於某些緣由使用Conda可能沒法順利安裝一些包,那麼可使用PIP來進行安裝。

REM 更新PIP

python -m pip install --upgrade pip

REM 中國股票數據獲取

pip install tushare

REM 導出當前環境全部依賴包信息

pip freeze > requirements.txt

REM 根據導出的依賴包信息安裝包

pip install -r requirements.txt -d <your_download_dir>

經常使用包推薦

數據獲取&爬蟲

  • Tushare:提供便捷的國內股票行情數據的獲取(自動爬取相關網站數據)
  • requests:一款優秀的HTTP Request包,能夠用於與HTML/XML解析的包結合起來製做爬蟲工具。
  • urllib:Python3的內置包,主要用於訪問、解析指定URL。
  • Beautiful Soup:一個能夠從HTML或XML文件中提取數據的Python庫。

數據整理

  • Numpy:提供強大的矩陣操做,以及一些很是有用的計算工具(如:irr、npv等)
  • Pandas:提供強大的數據框操做(相似R語言中的DataFrame)
  • SciPy:提供強大的統計工具。

數據可視化

數據庫操做

  • sqlalchemy:數據庫建議使用本身熟悉的或項目統一要求的,如:Oracle、MySQL、PostgreSQL、MSSQL、SQLite等。sqlalchemy包能夠有效的鏈接各種經常使用的數據庫,並處理各種操做。
相關文章
相關標籤/搜索