1. 下載火蜘蛛採集器php
火蜘蛛採集器下載地址:html
http://firespider.duapp.com/FireSpiderWeb/index.htmlapache
2.安裝json
火蜘蛛採集器包含了一個客戶端和一個服務端安裝包。安裝很是方便,一路下一步就能夠安裝完成。具體安裝步驟能夠參考它提供的安裝手冊。瀏覽器
3.啓動tomcat
啓動服務端:在桌面有個快捷方式「Fire Spider Server Startup」,右鍵-》以管理員身份運行。app
啓動客戶端:雙擊桌面快捷方式「FireSpider」ide
4.試用oop
安裝以後默認已經包含了幾個採集任務了。打開客戶端,以下圖所示,選中一個任務後點擊「執行採集」。post
能夠看到採集開始執行了。
若是須要中止採集,選中採集任務,點擊「執行採集」按鈕旁邊的「退出」。
5.創建新百倫任務
安裝以後默認已經包含了一個採集駱駝天貓店的任務——「駱駝-列表頁」。咱們只要參考這個,建一個本身的任務就能夠了。好比我要採集 「新百倫旗艦店」,在天貓搜索「新百倫」進入新百倫天貓店,找到新百倫的列表頁,連接是這樣的:
http://newbalance.tmall.com/search.htm?spm=a220m.1000858.1000725.4.vvTbdj&rn=bda5ce8edbc3307bf802e68880861de3&user_number_id=520557274
接下來建一個採集新百倫的任務
在瀏覽器輸出 http://localhost:8090/FireSpider/html/index.html 打開管理中心
新建一個任務,除了「任務名稱」,「連接」,「數據上傳連接」,其實都跟「駱駝-列表頁」同樣就好了。連接填寫剛纔的新百倫列表頁的連接。
注意「數據上傳連接」 字段:這個是採集器在採集到數據的時候,會把數據往這個連接以POST方式推送。由於採集器並不知道咱們拿採集到的數據有什麼用,只好把數據交給咱們本身處理。咱們能夠在本地開一個REST服務,apache, tomcat, iis什麼的均可以。
這裏「數據上傳連接」 咱們填寫 「http://localhost/myphp/index.php」,這裏咱們用的是PHP。待會會講一個這個PHP腳本。
若是隻是體驗一下采集,「數據上傳連接」也能夠留空。
點擊保存
6. 搭建WAMP
若是你不須要本身處理採集到的數據,這一步並非必須的。這裏講的是PHP自定義採集數據處理,其它語言也能夠略過。
6.1 安裝wamp
這個無需多言,也是一直下一步就能夠了。
6.2 創建Alias
輸入alias名稱
輸入alias對應的目錄
6.3 index.php腳本
7. 採集新百倫
任務創建後就能夠開始採集了。打開採集器客戶端,在任務標籤頁,選中咱們剛纔新建的「新百倫」,點擊「執行採集」
採集開始後,咱們就能夠在e:/test/ 下的josn-xxx.txt看到採集到的數據啦。