我是一名網絡蜘蛛,天天都不知疲倦地爬行在互聯網上的每個角落。在國外,人類都叫咱們Web Spider,固然,也有一些沒有藝術細胞的人類,稱呼咱們是爬蟲。雖然我來到這個世界的時間並不長,可是如今,咱們已經擁有了一個很是龐大的家族。其實,咱們日常的工做很是簡單,就是去互聯網上的每個網站,把他們的頁面作個快照給運回來,這樣,人類在經過搜索引擎就能夠查詢到本身須要的內容。儘管咱們快照的手藝沒有冠西老師專業,但咱們絕對比他勤快,隨時都會到各個網站看看有沒有內容更新。
咱們的誕生,首先得感謝互聯網,正是有了互聯網,咱們纔有了一個溫暖的家,咱們才能在這裏安家落戶,修養生息。第二個感謝的就是搜索引擎了,好比谷哥、百哥了。我在聽到他們的名字的時候,心中老是肅然起敬,他們就是蜘蛛世界裏的女媧,咱們心中的神,咱們永遠感謝他們八輩祖宗。
咱們剛誕生的時候,實際上是很純潔很天真的,咱們有咱們的理想,咱們有咱們的信仰,咱們也想成爲一個純粹的蜘蛛,一個高尚的蜘蛛,一個脫離了低級趣味的蜘蛛,是後來人類的貪婪把咱們中的一部分給拐帶壞了。人類的程序員成天抱怨:起得比雞早,睡得比狗晚,幹得比驢累,吃得比豬差。可他們爲何不想一想,咱們比他們累多了,咱們實行的7*24小時工做制,無論吃,無論喝,除了幹活就是幹活,還得冒着被網管封掉的生命危險。不過,說真的,剛開始的時候,人們仍是很是喜歡咱們的,咱們去各個小網站拍照的時候,可受歡迎了,那傢伙那場面,真是至關得壯觀。咱們爬回來的內容越多,搜索引擎收錄的連接就越多,小網站的排名就越靠前,隨着小網站的流量愈來愈大,終於有一天就變成了大網站。而後,人類就拿着網站的PV或者PR到風投那裏,說:「你看咱們的流量多麼多麼的大,你是否是該投點銀子了」。因而一來二去的,銀子就到手了。因此,小網站們能不歡迎咱們嘛,那時候,咱們每次去造訪網站,吃的是滿漢全席,臨走的時候,網站們還都會說:常來串門昂。
忽然有一天,古大哥和百二哥掐起架來了,打得水深火熱的。古大哥說:「我是老大,我米國來的,有的是銀子,我比你收錄的內容多!」。百二哥說:「我TMD纔是老大,你是個外國貨,我比你懂中文」。因而,兩個老大開始血拼,你派出來10個蜘蛛,我就派出來100個;你派出來1000個,我就派出來10000個。壺怕壺啊。因而網站們遭殃了,網站裏全是蜘蛛,把帶寬耗個精光,人類都訪問不了了。前幾天,csdn還被爬掛了呢,cnblogs都爬掛了好幾次了,不知道51CTO掛沒掛過。網站們對蜘蛛是又喜歡,又懼怕。蜘蛛實在太多了的時候,就敲死他們幾個。再說了,我如今都是大網站了,流量是嘩嘩的,你蜘蛛就別來湊熱鬧了。我靠,人類就是這張嘴臉,用你的時候甜言蜜語,不用的時候一腳踹開。
若是世界上就是那麼幾個搜索引擎的話,那也沒太大關係的。關鍵是如今冒出來不少的聚合類網站。這幫子聚合類網站,純粹的二道販子,本身歷來都沒有生產什麼內容,天天就派出去一羣蜘蛛,到各大網站採集內容。有點良心的網站,還保留着原始網站的地址,怎麼說也給原始網站貢獻了幾個外部連接;沒有良心的網站,直接就改爲本身的了,因此對於這類網站,確實是可恨,他們的蜘蛛直接斬立決。
人類有素質高低之分,咱們蜘蛛也有。素質高的蜘蛛,到人家網站爬東西的時候,臉上都貼個標籤:我是蜘蛛(就是在http協議頭裏User-agent:Robot相似的字樣)。這樣,網站不歡迎的時候就能夠分出來,加以拒絕(在webserver裏配置robots.txt文件)。素質低的蜘蛛,打扮得跟日常蜘蛛同樣,只不過就是來得勤。如今的搜索引擎們,不少都已經變得沒有素質了。
咱們蜘蛛如今可聰明瞭,咱們以爬網頁的時候,還會講究策略,有時候我會廣度優先,有時候我會深度優先。有的網站設計者,很是壞,在網頁上設計了陷阱,咱們剛爬進去就轉不出來,死在坑裏了。後來,咱們蜘蛛可學乖了,不再單打獨鬥了,一旦陷進去,其它的同夥就會趕過來,把失足者從坑裏拉上來。還有網管封咱們的IP,因此咱們不得不學着不斷的變換IP,家裏什麼都缺,就是不缺馬甲。還有的時候,咱們太貪婪,遇到網站上有好吃的,就想吃個精光,賴着不走,這也確實影響了人家客戶的訪問。咱們是有缺點,但咱們若是改正了,大家還會封咱們的IP嗎?偉人說過:改了就是好同志,有錯就改,改了再犯,千錘百煉纔會修成正果。網站們,你說是否是這個理?