從今天起,我將在這裏更新一個系列的python簡單爬蟲到創建網站的實踐手記。python
內容將會從最簡單的開始,環境搭建,基本爬蟲,入庫,用Django創建可供用戶訪問的網站,網站部署。nginx
同時打算涉及簡單的異步爬蟲,piplibe,隊列等等。web
爲了方便,將使用django和sqlite3來做爲例子, 雖然有時候這並非最合適的場景。。sql
最終目的:一個能用的自動更新的垃圾站shell
下面進入正題。django
本文的一切操做都在vps上bootstrap
在Runabove創建最便宜的instance.segmentfault
選擇魁省機房-Sandbox-M-Ubuntu14.10-輸入Instace名字"PythonSpider"-FireUp!bash
不出一分鐘,VPS就創建好了。
服務器
用SSH 鏈接服務器
先創建一個screen,順手更新apt-get,之後都在這裏面操做,避免掉線致使任務中斷。
bashscreen -S spider # 取名叫spider的screen sudo apt-get update sudp apt-get upgrade
再順手安裝一些確定會用的東西
bashsudo apt-get install gcc python-dev -y sudo - #這一步之後,用戶就是root了 記住 nginx=stable # use nginx=development for latest development version add-apt-repository ppa:nginx/$nginx apt-get update apt-get install nginx -y apt-get install libxml2-dev libxslt1-dev lib32z1-dev -y
裝pip和virtualenv
bashwget https://bootstrap.pypa.io/get-pip.py python get-pip.py pip install virtualenv
創建~/venv目錄,創建virtualenv, 激活virtualenv
bashmkdir ~/venv cd ~/venv virtualenv spider source ~/venv/spider/bin/activate
以後,shell提示符應該是這樣
安裝django(1.7)
bashpip install django cd ~ # 返回用戶目錄
5秒鐘後,django安裝完畢,如今開始創建項目目錄(Django的project)。咱們爬蟲站點的全部文件都放在裏面。
bashdjango-admin startproject python_spider
再測試下安裝是否成功
bashservice nginx stop # 爲毛? 由於RunAbove的8000神馬的端口很差用 python manage.py runserver 0.0.0.0:80 # 只能用80,真蛋疼
如今訪問192.99.71.91,我就能看到Django的示例頁面
沒騙你吧? 好了,看一眼能用就ctrl+c把服務器關掉。
而後,再創建一個app
bashcd python_spider python manage.py startapp web
因此,如今我有一個Django項目,叫python_spider, 它裏面有個app叫web.
未完待續。。。(點擊下面閱讀)
下一篇,是簡單Python爬蟲的編寫。