python爬取gif發源地

今天又改進了半天的代碼,之前的下載下來就在一個大文件夾裏,現在採取分文件夾爬取,對於編碼,採用了html=response.text.encode(‘iso-8859-1’).decode(‘utf-8’) 這種形式,先將html轉換爲unicode編碼,再轉化爲utf-8編碼。這樣就能夠提取出沒有亂碼的漢字了,將其定爲文件夾裏的分文件夾名。分別爬取。想看爬取思路的看我上一篇博文,這裏不再贅述。
相關文章
相關標籤/搜索