在Ubuntu 12.04中配置分佈式爬蟲框架——Cola

Cola是一個用Python編寫的分佈式爬蟲框架,其目的是爲了方便分佈式的部署,目前雖仍有不少不完善的地方,但仍然值得對其進行一番探索。本文將對Cola的運行環境配置進行一番較爲詳細的介紹。在配置以前,請保證系統已經有正常的編譯工具(gcc, make, autoconf, etc.)。另外,可能須要先安裝python-dev:python

sudo apt-get install python-dev

1 安裝MongoDB

Cola所採用的數據庫爲文檔型數據庫MongoDB,所以首先須要配置MongoDB,這裏給出一種較爲方便的部署方法。git

MongoDB是由10gen公司來負責維護開發的。首先給apt包管理添加10gen資源庫:github

 

sudo apt-key adv --keyserver keyserver.ubuntu.com --recv 7F0CEB10

echo 'deb http://downloads-distro.mongodb.org/repo/ubuntu-upstart dist 10gen' | sudo tee /etc/apt/sources.list.d/10gen.list

sudo apt-get update

通過以上幾步以後,就能夠安裝最新穩定版本的MongoDB:mongodb

sudo apt-get install mongodb-10gen

安裝完畢後,會自動啓動MongoDB服務。數據庫

2 安裝PIP

PIP是一個Python的包管理工具。由於Cola依賴不少的Python庫,爲了方便後期的安裝,咱們須要先配置好PIP。PIP自己依賴於setuptools,所以在安裝PIP前,須要先安裝setuptools,具體的方法以下:ubuntu

wget https://bitbucket.org/pypa/setuptools/raw/0.7.5/ez_setup.py -O - | sudo python
sudo apt-get install curl
curl -O https://raw.github.com/pypa/pip/master/contrib/get-pip.py
sudo python get-pip.py

3 配置Cola所依賴的庫

sudo apt-get install libyaml-dev
sudo pip install pyyaml
sudo pip install mechanize
sudo pip install python-dateutil
sudo pip install BeautifulSoup4
sudo pip install mongoengine
sudo easy_install rsa
git clone https://github.com/chineking/cola.git

在最後一個命令中,咱們獲取Cola的源代碼,以後就能夠單機模式或分佈式模式來運行了,具體能夠參見:https://github.com/chineking/cola/wikibash

相關文章
相關標籤/搜索