搜索引擎發現和偵察有直接和間接的因素。直接方法涉及從緩存中搜索索引和相關內容。間接方法涉及經過搜索論壇,新聞組和招標網站來收集敏感的設計和配置信息。php
一旦搜索引擎機器人完成了爬行,它就會開始根據標籤和相關屬性(如<TITLE>)索引網頁,以便返回相關的搜索結果[1]。若是在網站的生命週期內未更新robots.txt文件,而且還沒有使用指示機器人不對內容編制索引的內聯HTML元標記,則索引可能包含不打算包含在內的Web內容由業主。網站全部者可使用以前提到的robots.txt,HTML元標記,身份驗證和搜索引擎提供的工具來刪除此類內容。html
瞭解應用程序/系統/組織的敏感設計和配置信息是直接(在組織的網站上)仍是間接(在第三方網站上)公開的。算法
使用搜索引擎搜索:數據庫
使用高級「site:」搜索運算符,能夠將搜索結果限制爲特定域[2]。不要將測試限制在一個搜索引擎提供商,由於它們可能會生成不一樣的結果,具體取決於他們什麼時候抓取內容和他們本身的算法。考慮使用如下搜索引擎:緩存
Duck Duck Go和ixquick / Startpage能夠減小測試人員的信息泄漏。服務器
Google提供了高級「緩存:」搜索運算符[2],但這至關於點擊每一個Google搜索結果旁邊的「緩存」。所以,首選使用高級「站點:」搜索運算符,而後單擊「緩存」。網絡
Google SOAP Search API支持doGetCachedPage和相關的doGetCachedPageResponse SOAP Messages [3],以幫助檢索緩存頁面。OWASP「Google Hacking」項目正在開發此項目的實施。ide
PunkSpider是Web應用程序漏洞搜索引擎。對於進行手工操做的滲透測試儀來講,它幾乎沒用。然而,它能夠用來證實腳本小子易於發現漏洞。工具
示例 要查找由典型搜索引擎索引的owasp.org的Web內容,所需的語法爲:測試
網站:owasp.org
要將owasp.org的index.html顯示爲緩存,語法爲:
緩存:owasp.org
Google黑客數據庫是Google的有用搜索查詢列表。查詢分爲幾類: