Cola是一個用Python編寫的分佈式爬蟲框架,其目的是爲了方便分佈式的部署,目前雖仍有不少不完善的地方,但仍然值得對其進行一番探索。本文將對Cola的運行環境配置進行一番較爲詳細的介紹。在配置以前,請保證系統已經有正常的編譯工具(gcc, make, autoconf, etc.)。另外,可能須要先安裝python-dev:python
sudo apt-get install python-dev
Cola所採用的數據庫爲文檔型數據庫MongoDB,所以首先須要配置MongoDB,這裏給出一種較爲方便的部署方法。git
MongoDB是由10gen公司來負責維護開發的。首先給apt包管理添加10gen資源庫:github
sudo apt-key adv --keyserver keyserver.ubuntu.com --recv 7F0CEB10
echo 'deb http://downloads-distro.mongodb.org/repo/ubuntu-upstart dist 10gen' | sudo tee /etc/apt/sources.list.d/10gen.list
sudo apt-get update
通過以上幾步以後,就能夠安裝最新穩定版本的MongoDB:mongodb
sudo apt-get install mongodb-10gen
安裝完畢後,會自動啓動MongoDB服務。數據庫
PIP是一個Python的包管理工具。由於Cola依賴不少的Python庫,爲了方便後期的安裝,咱們須要先配置好PIP。PIP自己依賴於setuptools,所以在安裝PIP前,須要先安裝setuptools,具體的方法以下:ubuntu
wget https://bitbucket.org/pypa/setuptools/raw/0.7.5/ez_setup.py -O - | sudo python
sudo apt-get install curl curl -O https://raw.github.com/pypa/pip/master/contrib/get-pip.py sudo python get-pip.py
sudo apt-get install libyaml-dev sudo pip install pyyaml sudo pip install mechanize sudo pip install python-dateutil sudo pip install BeautifulSoup4 sudo pip install mongoengine sudo easy_install rsa git clone https://github.com/chineking/cola.git
在最後一個命令中,咱們獲取Cola的源代碼,以後就能夠單機模式或分佈式模式來運行了,具體能夠參見:https://github.com/chineking/cola/wikibash