python爬取gif發源地

時間 2021-01-22

標籤多進程爬蟲 gif爬取分文件夾保存 BeautifulSoup requests 欄目 Python 简体版

原文原文鏈接

今天又改進了半天的代碼，之前的下載下來就在一個大文件夾裏，現在採取分文件夾爬取，對於編碼，採用了html=response.text.encode(‘iso-8859-1’).decode(‘utf-8’) 這種形式，先將html轉換爲unicode編碼，再轉化爲utf-8編碼。這樣就能夠提取出沒有亂碼的漢字了，將其定爲文件夾裏的分文件夾名。分別爬取。想看爬取思路的看我上一篇博文，這裏不再贅述。

>>阅读原文<<