Python爬蟲建站入門手記——從零開始創建採集站點(一:環境搭建)

從今天起,我將在這裏更新一個系列的python簡單爬蟲到創建網站的實踐手記python

內容將會從最簡單的開始,環境搭建,基本爬蟲,入庫,用Django創建可供用戶訪問的網站,網站部署。nginx

同時打算涉及簡單的異步爬蟲,piplibe,隊列等等。web

爲了方便,將使用django和sqlite3來做爲例子, 雖然有時候這並非最合適的場景。。sql

最終目的:一個能用的自動更新的垃圾站shell

下面進入正題。django

第一部分,買VPS,裝環境。

本文的一切操做都在vps上bootstrap

在Runabove創建最便宜的instance.segmentfault

Screenshot-from-2015-02-06-234205.png

選擇魁省機房-Sandbox-M-Ubuntu14.10-輸入Instace名字"PythonSpider"-FireUp!bash

不出一分鐘,VPS就創建好了。
VPS RUNNING服務器

用SSH 鏈接服務器
SSH1

先創建一個screen,順手更新apt-get,之後都在這裏面操做,避免掉線致使任務中斷。

bashscreen -S spider # 取名叫spider的screen
sudo apt-get update
sudp apt-get upgrade

再順手安裝一些確定會用的東西

bashsudo apt-get install gcc python-dev -y
sudo - #這一步之後,用戶就是root了 記住
nginx=stable # use nginx=development for latest development version
add-apt-repository ppa:nginx/$nginx
apt-get update
apt-get install nginx -y
apt-get install libxml2-dev libxslt1-dev lib32z1-dev -y

裝pip和virtualenv

bashwget https://bootstrap.pypa.io/get-pip.py
python get-pip.py
pip install virtualenv

創建~/venv目錄,創建virtualenv, 激活virtualenv

bashmkdir ~/venv
cd ~/venv
virtualenv spider
source ~/venv/spider/bin/activate

以後,shell提示符應該是這樣
SSH2

安裝django(1.7)

bashpip install django
cd ~ # 返回用戶目錄

5秒鐘後,django安裝完畢,如今開始創建項目目錄(Django的project)。咱們爬蟲站點的全部文件都放在裏面。

bashdjango-admin startproject python_spider

再測試下安裝是否成功

bashservice nginx stop # 爲毛? 由於RunAbove的8000神馬的端口很差用
python manage.py runserver 0.0.0.0:80 # 只能用80,真蛋疼

如今訪問192.99.71.91,我就能看到Django的示例頁面
Django1
沒騙你吧? 好了,看一眼能用就ctrl+c把服務器關掉。

而後,再創建一個app

bashcd python_spider
python manage.py startapp web

因此,如今我有一個Django項目,叫python_spider, 它裏面有個app叫web.

未完待續。。。(點擊下面閱讀)
下一篇,是簡單Python爬蟲的編寫。

相關文章
相關標籤/搜索