python爬蟲學習--防盜鏈

一 首先要了解什麼是盜鏈數據庫

盜鏈是指服務提供商本身不提供服務的內容,經過技術手段繞過其它有利益的最終用戶界面(如廣告),直接在本身的網站上向最終用戶提供其它服務商的服務內容,騙取最終用戶的瀏覽和點擊率。受益者不提供資源或者提供不多的資源,而真正的服務提供商卻得不到任何的利益。瀏覽器

最熟悉的,就是盜版網絡小說網站,可能盜鏈起點中文網等的小說內容。服務器

根據盜鏈的形式,可簡單地分紅2類,常規盜鏈和分佈式盜鏈。 常規盜鏈,只針對某個或某些網站的連接。在本身的頁面嵌入別人的連接便可。分佈式盜鏈,互聯網上任何一臺機器均可成爲盜鏈的對象。服務提供商通常在後臺設置專門程序(spider,爬蟲)在網上抓取有用的連接,而後存儲到本身的數據庫中,而對於最終用戶的每次訪問,都將其轉化爲對已有數據庫的查詢。被查詢到的URL就是被盜鏈的對象。因爲對文件的訪問已經被瀏覽器屏東掉了,最終用戶感受不到所訪問的連接是被盜取的連接。cookie

 

二 反盜鏈網絡

原始方式, 修改文件或目錄的名稱session

限制引用頁, 僅限本身站內提交,或本身信任的站點提交的。不然視爲盜鏈分佈式

文件假裝,用得最多的技術,通常結合服務器動態腳本,。實際上用戶請求的文件地址,只是一個通過假裝的腳本文件。這個腳本文件會對用戶的請求做認證。通常會檢查session,cookie或者http_referer做爲判斷是否爲盜鏈的依據。而真實的文件實際隱藏在用戶不可以訪問的地方,只有用戶經過驗證之後纔會返回給用戶。ide

加密認證, 先從客戶端獲取用戶信息,根據信息和用戶請求的文件名一塊兒加密成session id做身份驗證。成功後,才把用戶須要的文件傳送給客戶。對分佈式盜鏈很是有效。網站

隨機附加碼, 加密

相關文章
相關標籤/搜索