開源 java CMS - FreeCMS2.6 Web頁面信息採集

java開源論壇系統http://javabbs.javaz.cnhtml

項目地址:http://www.freeteam.cn/java

Web頁面信息採集web

   從FreeCMS 2.1開始支持編碼

經過簡單配置便可抓取目標網頁信息,支持增量式採集、關鍵字替換、定時採集,同一採集規則可採集多個頁面(靜態和動態),可採集多種信息屬性,可自動審覈且靜態化信息頁面。url

採集規則管理htm

從左側管理菜單點擊採集規則進入。圖片

添加採集規則get

在採集規則列表下方點擊"添加"按鈕。變量

填寫相關屬性後點擊"保存"按鈕便可。配置

採集規則屬性說明

採集規則屬性分爲基本、設置、採集地址,採集屬性,關鍵詞替換。

通常狀況下只要在基本選項卡填寫相關屬性便可完成。若是須要更多高級設置可使用後面幾個選項卡。

下面針對主要屬性進行解釋說明。

名稱:採集規則的名稱。

採集到欄目:採集的信息要添加到那個欄目。

頁面編碼:目標網頁的頁面編碼,默認爲UTF-8。

採集地址:目標網頁的地址。在基本選項卡中只能設置一個,想要設置多個能夠在採集地址選項卡中設置。

採集調度:設置定時執行採集操做,這個設置很是重要,只有設置了採集調度系統才執行採集操做。

內容列表開始結束html:由於系統是經過對目標網頁內容進行關鍵詞截取來提取信息屬性的,因此設置目標屬性的開始結束html就很重要,必定要設置爲相對比較惟一的開始結束html,這樣系統才能正確的截取到目標屬性。此屬性主要爲了截取目標頁面信息列表的html.

內容地址開始結束html:根據上面的屬性獲取內容列表html後,使用此屬性截取各個內容地址。

內容標題開始結束html:根據上面的屬性獲取內容地址後,系統會抓取此內容地址的網頁內容,而後根據此屬性截取內容標題。內容相關屬性的設置跟此屬性相似,下面再也不贅述。

狀態:啓用狀態下的採集規則,系統纔會執行。

採集圖片:將信息內容中的圖片下載到本地。

自動審覈經過:將採集的信息直接設置爲已審覈狀態。

使用採集信息點擊量:默認採集到的信息的點擊量爲0,設置此屬性和內容點擊量開始結束html後系統會截取目標信息的點擊量,設置爲採集後信息的點擊量。

最多采集內容數:默認不限制,若是設置了此屬性,系統會從採集記錄中統計此採集規則已採集了多少條信息,若是超過最多采集內容數,系統將再也不採集。

將首幅圖片設爲標題圖片:若是信息內容中有圖片,則提取第一張作爲標題圖片,並設置信息爲圖片信息。

清除內容中的html標籤:將信息內容中的html標籤清除,保留純文本。

當內容爲空時是否採集:可設置在內容爲空時不採集此信息。

使用採集信息的添加時間:默認採集到的信息的添加時間爲當前時間,設置此屬性和內容添加時間開始結束html後系統會截取目標信息的添加時間,設置爲採集後信息的添加時間。

採集信息添加時間格式:默認格式爲yyyy-MM-dd,若是目標頁面的添加時間格式不一樣,須要在這裏設置爲正確的日期格式。

採集開始時間:默認爲當前時間,若是不到採集開始時間,系統是不會採集的。

採集結束時間:默認爲永不結束,若是超過採集結束時間,系統是不會採集的。

內容地址補全url:由於有些網頁使用的是相對路徑或絕對路徑,能夠設置內容地址的前綴。

圖片地址補全url:由於有些網頁使用的是相對路徑或絕對路徑,能夠設置圖片連接地址的前綴。

內容中A標籤連接地址補全url:由於有些網頁使用的是相對路徑或絕對路徑,能夠設置內容中A標籤連接地址的前綴。

採集地址分爲靜態和動態地址,靜態地址爲固定的地址,動態地址通常指能夠分頁的地址,經過{page}來表明分頁變量,能夠設置從那一頁採集到那一頁,如http://www.freetam.cn/list_{page}.html,設置開始頁數爲1,結束頁數爲10,系統會自動提取http://www.freetam.cn/list_1.html到http://www.freetam.cn/list_10.html全部頁面的數據。

通常狀況下咱們只採集信息的標題和內容就能夠了,系統還提供採集內容描述、點擊量、做者、來源、添加時間屬性的功能。

經過關鍵詞替換功能,您能夠將採集到的信息裏面的關鍵詞替換爲本身想要的關鍵詞。

 

編輯採集規則

選擇須要編輯的採集規則,而後點擊"編輯"按鈕。

注意:同時只能編輯一個採集規則。

填寫相關屬性後點擊"保存"按鈕便可。

採集

選擇須要採集的採集規則,而後點擊"採集"按鈕。

注意:同時只能對一個採集規則進行採集操做。

刪除採集規則

選擇須要刪除的採集規則,而後點擊"刪除"按鈕。

提示:同時能夠刪除多個採集規則。

爲了防止誤操做,系統會提示用戶是否刪除,點擊"肯定"完成刪除操做。

查看採集記錄

從左側管理菜單點擊採集記錄進入。

在這裏能夠查看到全部web頁面採集記錄,您能夠刪除指定的採集記錄,但並不會刪除已採集的信息數據,選擇須要刪除的採集記錄,而後點擊"刪除"按鈕。

   提示:同時能夠刪除多個採集記錄。

 

爲了防止誤操做,系統會提示用戶是否刪除,點擊"肯定"完成刪除操做。

相關文章
相關標籤/搜索