web之robots.txt

時間 2020-07-26

標籤 web robots.txt robots txt 欄目 HTML 简体版

原文原文鏈接

什麼是roots協議

robots協議也叫robots.txt（統一小寫）是一種存放於網站根目錄下的 ASCII編碼的文本文件，它一般告訴網絡搜索引擎的漫遊器（又稱網絡蜘蛛），此網站中的哪些內容是不該被搜索引擎的漫遊器獲取的，哪些是能夠被漫遊器獲取的。由於一些系統中的URL是大小寫敏感的，因此robots.txt的文件名應統一爲小寫。robots.txt應放置於網站的根目錄下。若是想單獨定義搜索引擎的漫遊器訪問子目錄時的行爲，那麼能夠將自定的設置合併到根目錄下的robots.txt，或者使用robots 元數據（Metadata，又稱元數據）。

robots協議並非一個規範，而只是約定俗成的，因此並不能保證網站的隱私。

robots.txt文件是一個文本文件，使用任何一個常見的文本編輯器，好比 Windows系統自帶的Notepad，就能夠建立和編輯它

robots.txt是一個協議，而不是一個命令。robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務器上什麼文件是能夠被查看的。

當一個搜索蜘蛛訪問一個站點時，它會首先檢查該站點根目錄下是否存在robots.txt，若是存在，搜索機器人就會按照該文件中的內容來肯定訪問的範圍；若是該文件不存在，全部的搜索蜘蛛將可以訪問網站上全部沒有被口令保護的頁面。百度官方建議，僅當您的網站包含不但願被搜索引擎收錄的內容時，才須要使用robots.txt文件。若是您但願搜索引擎收錄網站上全部內容，請勿創建robots.txt文件。