原創聲明:做者:Arnold.zhao 博客園地址:https://www.cnblogs.com/zh94 網站
【 搜索引擎
一、記錄一下博客園的文章被別的網站爬取後,如何才能在最佳的位置保留原創連接的方式blog
二、看一下各大網站對所爬取後的文章的處理和玩法;索引
】開發
偶然的一次時間Google上搜索一些資料,忽然看到了本身曾經在博客園發佈過的文章,可是點開後文章內容居然不是在本身的博客園內,而是在另一個網站內,此時便忽然意識到,喲西,博客園的文章被別的網站爬蟲了;rem
以下圖所示:來源是一個叫作Python量化投資的網站,過度的是原創的文章連接只是在底部輕描淡寫了一個簡單的URL地址,便沒有再說明其它原創的信息,而且底部還有一個「讚揚」的按鈕,這。。尼瑪就有些過度了啊,因而在有些許氣憤之下,開始以本身的博客名爲搜索關鍵詞開始了漫漫的檢索之路;;get
以本身的博客園名稱做爲Google的搜索的keyword後,發現的第二個網站是一個叫作 「BBSMAX」 的網站,以下圖所示,這個網站也是比較過度的,居然連原創連接都沒有標識,只是在頭部標識了做者名稱「Dearzh」。。。。博客
接着在另一個「 e-learn」的網站上看到了被爬取的第三個文章 ,不過較好的是,該網站的處理方式仍是有些細膩的,在文章的底部,單獨以新的style樣式,展現了對應的文章來源,及URL地址信息,以下圖所示:互聯網
此時在接着進行文章查看時,仍是在「bbsmax」上面發現了一外一篇本人的文章,不過不一樣的是,文章底部給了很明顯的文章出處,以下圖所示:搜索
文章底部給了很明顯的做者名稱,以及文章的原文連接。。。。因此,問題來了。爲何都是來自於博客園的文章,按照「BBSMAX」網站的尿性,爲什麼會在這篇文章下保留了
極爲明顯的原創地址呢???? 緣由只有一個,「BBSMAX」網站在爬取內容後,將原創聲明的標識,按照正文內容的方式進行了收錄,而並無當作標識進行刪除;
通常狀況下,咱們都會使用博客園自帶的默認簽名的方式,來聲明原創連接,簡單Chrome F12確認了對應的DOM結構,博客園內的默認簽名都是以<div id="MySignature"/>的方式展現對應的簽名信息,且每次刷新文章後,DOM所對應的ID都是沒有動態變化的,因此對於通常的網站爬蟲來講,在獲取到對應的文章中全部BODY內容後,通常均可以選擇直接remove掉對應的DOM元素便可,這樣本來屬於你的文章,就會被從新定義原創信息;
儘管互聯網上無祕密,而且文章從發佈開始就是爲了幫助更多也存在相似問題的朋友,但當看到博客內容被別人輕易爬取後,還不聲明原創連接,這仍是有些過度的,因此,爲了不出現這種狀況,能夠採用以下幾個方案,來從新定義原創連接信息:(反爬取就不要想啦,這個必須由博客園的開發同窗本身解決才行)
一、在文章的開頭處直接聲明對應的做者信息,如:做者:Arnold.zhao 博客園地址:https://www.cnblogs.com/zh94 (是要在本身的文章開始書寫時進行聲明,而不是採用簽名默認聲明的方式)
二、在文章的結尾處聲明做者信息,但需本身書寫 div 元素標籤進行聲明(總之,目的就是爲了不博客園自身的簽名方式)
三、若是還想使用 博客園的簽名方式作統一的原創聲明,那麼也能夠申請下博客園的JS權限(獲取JS的權限後,能夠每次在加載文章的時候,replice掉對應的ID="MySignature"的元素,將ID更改成隨機的一個 值),經過這種方式,對於部分網站先加載完後,再獲取DOM等結構數據的爬蟲則也是有效的。
到此,整個文章想要描述的內容就已經結束了,碼字不易,因此其它博客園的兄弟在寫文章的時候,對於原創聲明的方式,也是的確須要關注一下滴;
最後聲明一點,本人對於爬蟲的這種操做實際上是並不反感的,畢竟博客園的信息自己就是公開透明可取的,並且更多的內容被其它網站進行收錄後,也的確會增長搜索引擎的權重,能夠Help到更多須要幫助的同窗,因此,對於Author來說,這是好事;
當我在以博客名進行檢索的時候,看到了之前的一些文章內容被自動轉換爲繁體字收錄到其餘網站上面時,心裏仍是有些觸動的,感受彷佛有默默的幫助到港澳臺的同胞,這。。。。爲祖國統一作了默默的貢獻啊。。。。加油