本人習慣使用python2進行編程,所以beautifulsoup也是使用python2版本的,但聽說python2明年就要中止支持了,憂傷得很。。。
如圖所示,在頁面源碼當中找到5個flag,而後拼接起來,還給了flagA的示例。html
flagA:python
打開站點是一個ctf-wiki
的demo站點,瞭解這個站的人應該都知道它的體量,因此手動一個個找是不現實的,須要用到爬蟲了(題目名稱也暗示了)。編程
我考慮使用廣度優先搜索(BFS)實現一個網站爬蟲,不瞭解廣度搜索的童鞋能夠自行百度。具體實現方法以下:segmentfault
visiting_urls
和已請求連接visited_urls
的2個列表(也可看作隊列)visiting_urls
取出一條連接,使用requrests.get
請求頁面源碼beautifulsoup
獲取頁面中全部的a
標籤,符合要求的加入visiting_urls
visiting_urls
不爲空,則執行[2]當中須要考慮2個問題:session
去重問題:當爬取連接時,不免會遇到存在不一樣位置的url
指向同一個頁面,爬取時不須要再請求相同頁面,所以要對爬取到的url
進行去重。方法以下:app
visiting_urls visited_urls
列表,比對爬取url
與已爬取過的url
是否重複;url
特色,包含"../"
的是回溯連接,此類連接不須要再次請求。正則匹配問題:這個方面沒有多想,寫個能使用的正則匹配規則就行,在本題中須要2種正則匹配:優化
flag[ABCDE]
,個人目的是匹配到flag的標誌,而不是把flag整個都匹配出來,由於我不清楚flag當中有沒有其餘奇怪字符,防止出現漏匹配的狀況;[\w\/]+index\.html
,目的是匹配路徑爲字母數字(不包含".."
)且末尾是"index.html"
的url
。到此,整個任務就完成了。網站
#coding=utf-8 import requests,re from bs4 import BeautifulSoup s = requests.session() s.keep_alive=False flagre = re.compile('flag[ABCDE]') urlre = re.compile('[\w\/]+index\.html') base_url = 'http://23.236.125.55:1000/ctf-wiki/' flagA_url = 'http://23.236.125.55:1000/ctf-wiki/assembly/mips/readme/index.html' visiting_urls = ['http://23.236.125.55:1000/ctf-wiki/index.html'] visited_urls = [] def find_flag(url,html): flist = flagre.findall(html) if len(flist) > 0: print flist,url def BFS(): url = visiting_urls[0] del(visiting_urls[0]) visited_urls.append(url) r = s.get(url) #r.encoding = 'utf-8' find_flag(url,r.text) soup = BeautifulSoup(r.text,'lxml') for a in soup.find_all('a'): link = a['href'] if urlre.findall(link) and ".." not in link: new_url = base_url + link if new_url not in visited_urls and new_url not in visiting_urls: visiting_urls.append(new_url) if __name__ == '__main__': while len(visiting_urls) > 0: BFS()
上面思路已經提到了,該腳本只能提取到包含flag標誌的頁面,而不是flag自己,所以還須要手動訪問這些頁面去尋找flag(手動狗頭),若是還想直接顯示flag,那就須要優化一下正則匹配了。url
提示一點,在獲取到頁面源碼後,使用
r.encoding = 'utf-8'
轉碼會致使EOFError
,具體緣由不詳,本想可以匹配中文頁面,結果多此一舉搞了半天覺得匹配沒成功。spa
2019.05.05
補充:在爬取含中文的utf-8頁面時,使用Response
字符串在各類狀況下顯示狀況:(以匹配title標籤爲例)
語言 輸出 cmd/PowerShell Linux Shell py2 r.text
<'unicode'>會報錯 UnicodeEncodeError: 'gbk' codec can't encode character u'\u2f8f' in position 96807: illegal multibyte sequence
u'<title>Web \u5e94\u7528\u7b80\u4ecb - CTF Wiki</title>'
py2 r.content
<'str'>'<title>Web \xe5\xba\x94\xe7\x94\xa8\xe7\xae\x80\xe4\xbb\x8b - CTF Wiki</title>'
並會報錯IOError: [Errno 34] Result too large
'<title>Web \xe5\xba\x94\xe7\x94\xa8\xe7\xae\x80\xe4\xbb\x8b - CTF Wiki</title>'
py3 r.text
<'str'>'<title>Web 應用簡介 - CTF Wiki</title>'
'<title>Web 應用簡介 - CTF Wiki</title>'
py3 r.content
<'bytes'>b'<title>Web \xe5\xba\x94\xe7\x94\xa8\xe7\xae\x80\xe4\xbb\x8b - CTF Wiki</title>'
正則匹配會報錯TypeError: cannot use a string pattern on a bytes-like object
b'<title>Web \xe5\xba\x94\xe7\x94\xa8\xe7\xae\x80\xe4\xbb\x8b - CTF Wiki</title>'
正則匹配會報錯TypeError: cannot use a string pattern on a bytes-like object
由上述表格可見,若是涉及到中文頁面的爬蟲程序,儘可能使用
python3
&Linux Shell
運行,而且合理使用r.content
和r.text
(r.content.decode('utf-8')==r.text
)。提示兩點,
requests.session()
的好處,相較於直接requests.get()
,能夠防止創建過多的HTTP鏈接,致使新鏈接沒法創建的問題。參考頁面:https://segmentfault.com/q/10...
執行效果以下:
最後拼接一下,完事了。