採集步驟:html
一、增長採集節點;spa
二、預覽採集正則是否正確;.net
三、開始採集;3d
四、對採集的數據進行審覈併入庫;orm
五、生成欄目及內容HTML頁面。cdn
1、增長採集節點:htm
一、登錄後臺->點擊大菜單「欄目管理」>「增長採集節點」;blog
二、「選擇要增長採集的欄目」(選擇終極欄目);it
三、「選擇要增長採集的欄目」後進入增長節點頁面;io
四、打開要採集的列表頁面:http://www.phome.net/tmp/cjpage/list.html
點擊查看「源文件」
點擊查看,列表頁源代碼爲以下:
五、開始設置採集節點及列表頁正則:
(1)、輸入節點名稱:採集實例
(2)、採集頁面地址:http://www.phome.net/tmp/cjpage/list.html
(3)、由列表頁的源代碼:「」,咱們得出「內容頁地址前綴」爲:http://www.phome.net/tmp/cjpage/
(4)、設置「信息頁連接正則」:由列表頁的源代碼得出。
圖1:頁面源代碼
圖2:得出的信息頁連接正則
六、點擊採集的內容頁頁面並查看源文件:http://www.phome.net/tmp/cjpage/page4.html
圖1:內容頁頁面
圖2:內容頁源代碼
七、設置內容頁內容正則:(標題及內容正則)
(1)、標題正則:由源代碼內容咱們得出「新聞標題」正則爲:
圖1:頁面源代碼
圖2:得出的標題正則
(2)、內容正則:由源代碼內容咱們得出「新聞內容」正則爲:
圖1:頁面源代碼
圖2:得出的新聞內容正則
八、點擊「提交」按鈕便可增長節點完畢,整個表單最終效果以下:
[點擊查看]
2、預覽採集正則是否正確:
一、上面增長採集節點後,咱們返回「管理節點」頁面,以下:
二、點擊「預覽」採集,進入節點正則預覽與驗證:
圖1:採集頁面地址列表
圖2:信息連接列表
圖3:採集的內容頁內容
三、上面連接列表頁及內容頁內容預覽無誤後方可進行採集操做。
3、開始採集:
一、上面的採集節點正則預覽無誤後,咱們返回「管理節點」頁面:
二、點擊上面的「開始採集」連接,開始進行採集;
三、採集信息完成後,系統會轉向採集入庫頁面,以下:
4、對採集的數據進行審覈併入庫:
便可完成入庫操做