反開源爬蟲 robot.txt

時間 2020-07-06

原文原文鏈接

搜索引擎經過一種程序「蜘蛛」（又稱spider），自動訪問互聯網上的網頁並獲取網頁信息。您能夠在您的網站中建立一個純文本文件robots.txt，在這個文件中聲明該網站中不想被蜘蛛訪問的部分，這樣，該網站的部分或所有內容就能夠不被搜索引擎訪問和收錄了，或者能夠經過robots.txt指定使搜索引擎只收錄指定的內容。搜索引擎爬行網站第一個訪問的文件就是robots.txt。ide 百度百科 --

>>阅读原文<<