教你用11 種方法高效下載 Python 資源!

   
點擊上方「 印象python 」,選擇「 星標 」公衆號
重磅乾貨,第一時間送達!

每天向上 | 譯者 html

數據管道 | 來源 python

https://dzone.com/articles/simple-examples-of-downloading-files-using-pythonlinux

在本教程中,你將學習如何使用不一樣的Python模塊從web下載文件。此外,你將下載常規文件、web頁面、Amazon S3和其餘資源。web


最後,你將學習如何克服可能遇到的各類挑戰,例以下載重定向的文件、下載大型文件、完成一個多線程下載以及其餘策略。面試


1數組


使用requests微信


你可使用requests模塊從一個URL下載文件。多線程


考慮如下代碼:app



你只需使用requests模塊的get方法獲取URL,並將結果存儲到一個名爲「myfile」的變量中。而後,將這個變量的內容寫入文件。python爬蟲


2


使用wget



你還能夠使用Python的wget模塊從一個URL下載文件。你可使用pip按如下命令安裝wget模塊:


考慮如下代碼,咱們將使用它下載Python的logo圖像。



在這段代碼中,URL和路徑(圖像將存儲在其中)被傳遞給wget模塊的download方法。


3


下載重定向的文件


在本節中,你將學習如何使用requests從一個URL下載文件,該URL會被重定向到另外一個帶有一個.pdf文件的URL。該URL看起來以下:



要下載這個pdf文件,請使用如下代碼:



在這段代碼中,咱們第一步指定的是URL。而後,咱們使用request模塊的get方法來獲取該URL。在get方法中,咱們將allow_redirects設置爲True,這將容許URL中的重定向,而且重定向後的內容將被分配給變量myfile。


最後,咱們打開一個文件來寫入獲取的內容。


4


分塊下載大文件


考慮下面的代碼:



首先,咱們像之前同樣使用requests模塊的get方法,可是這一次,咱們將把stream屬性設置爲True。


接着,咱們在當前工做目錄中建立一個名爲PythonBook.pdf的文件,並打開它進行寫入。


而後,咱們指定每次要下載的塊大小。咱們已經將其設置爲1024字節,接着遍歷每一個塊,並在文件中寫入這些塊,直到塊結束。


不漂亮嗎?不要擔憂,稍後咱們將顯示一個下載過程的進度條。


5


下載多個文件(並行/批量下載)


要同時下載多個文件,請導入如下模塊:



咱們導入了os和time模塊來檢查下載文件須要多少時間。ThreadPool模塊容許你使用池運行多個線程或進程。


讓咱們建立一個簡單的函數,將響應分塊發送到一個文件:



這個URL是一個二維數組,它指定了你要下載的頁面的路徑和URL。



就像在前一節中所作的那樣,咱們將這個URL傳遞給requests.get。最後,咱們打開文件(URL中指定的路徑)並寫入頁面內容。


如今,咱們能夠分別爲每一個URL調用這個函數,咱們也能夠同時爲全部URL調用這個函數。讓咱們在for循環中分別爲每一個URL調用這個函數,注意計時器:



如今,使用如下代碼行替換for循環:



運行該腳本。


6


使用進度條進行下載


進度條是clint模塊的一個UI組件。輸入如下命令來安裝clint模塊:



考慮如下代碼:



在這段代碼中,咱們首先導入了requests模塊,而後,咱們從clint.textui導入了進度組件。惟一的區別是在for循環中。在將內容寫入文件時,咱們使用了進度條模塊的bar方法。


7


使用urllib下載網頁


在本節中,咱們將使用urllib下載一個網頁。


urllib庫是Python的標準庫,所以你不須要安裝它。


如下代碼行能夠輕鬆地下載一個網頁:



在這裏指定你想將文件保存爲何以及你想將它存儲在哪裏的URL。



在這段代碼中,咱們使用了urlretrieve方法並傳遞了文件的URL,以及保存文件的路徑。文件擴展名將是.html。


8


經過代理下載


若是你須要使用代理下載你的文件,你可使用urllib模塊的ProxyHandler。請看如下代碼:



在這段代碼中,咱們建立了代理對象,並經過調用urllib的build_opener方法來打開該代理,並傳入該代理對象。而後,咱們建立請求來獲取頁面。


此外,你還能夠按照官方文檔的介紹來使用requests模塊:



你只須要導入requests模塊並建立你的代理對象。而後,你就能夠獲取文件了。


9


使用urllib3


urllib3是urllib模塊的改進版本。你可使用pip下載並安裝它:



咱們將經過使用urllib3來獲取一個網頁並將它存儲在一個文本文件中。


導入如下模塊:



在處理文件時,咱們使用了shutil模塊。


如今,咱們像這樣來初始化URL字符串變量:



而後,咱們使用了urllib3的PoolManager ,它會跟蹤必要的鏈接池。



建立一個文件:



最後,咱們發送一個GET請求來獲取該URL並打開一個文件,接着將響應寫入該文件:



10


使用Boto3從S3下載文件


要從Amazon S3下載文件,你可使用Python boto3模塊。


在開始以前,你須要使用pip安裝awscli模塊:



對於AWS配置,請運行如下命令:



如今,按如下命令輸入你的詳細信息:



要從Amazon S3下載文件,你須要導入boto3和botocore。Boto3是一個Amazon SDK,它容許Python訪問Amazon web服務(如S3)。Botocore提供了與Amazon web服務進行交互的命令行服務。


Botocore自帶了awscli。要安裝boto3,請運行如下命令:



如今,導入這兩個模塊:



在從Amazon下載文件時,咱們須要三個參數

  • Bucket名稱

  • 你須要下載的文件名稱

  • 文件下載以後的名稱


初始化變量:



如今,咱們初始化一個變量來使用會話的資源。爲此,咱們將調用boto3的resource()方法並傳入服務,即s3:



最後,使用download_file方法下載文件並傳入變量:



11


使用asyncio


asyncio模塊主要用於處理系統事件。它圍繞一個事件循環進行工做,該事件循環會等待事件發生,而後對該事件做出反應。這個反應能夠是調用另外一個函數。這個過程稱爲事件處理。asyncio模塊使用協同程序進行事件處理。


要使用asyncio事件處理和協同功能,咱們將導入asyncio模塊:



如今,像這樣定義asyncio協同方法:



關鍵字async表示這是一個原生asyncio協同程序。在協同程序的內部,咱們有一個await關鍵字,它會返回一個特定的值。咱們也可使用return關鍵字。


如今,讓咱們使用協同建立一段代碼來從網站下載一個文件:



在這段代碼中,咱們建立了一個異步協同函數,它會下載咱們的文件並返回一條消息。


而後,咱們使用另外一個異步協同程序調用main_func,它會等待URL並將全部URL組成一個隊列。asyncio的wait函數會等待協同程序完成。


如今,爲了啓動協同程序,咱們必須使用asyncio的get_event_loop()方法將協同程序放入事件循環中,最後,咱們使用asyncio的run_until_complete()方法執行該事件循環。


使用Python下載文件是頗有趣的。但願本教程對你有用!


回覆下方 「關鍵詞」,獲取優質資源



回覆關鍵詞 「linux」,便可獲取 185 頁 Linux 工具快速教程手冊和154頁的Linux筆記。

回覆關鍵詞 「Python進階」,便可獲取 106 頁 Python 進階文檔 PDF

回覆關鍵詞 「Python面試題」,便可獲取最新 100道 面試題 PDF

回覆關鍵詞 「python數據分析」,便可獲取47頁python數據分析與天然語言處理的 PDF

回覆關鍵詞 「python爬蟲」,滿滿五份PPT爬蟲教程和70多個案例

回覆關鍵詞 「Python最強基礎學習文檔」,便可獲取 168 頁 Python 最強基礎學習文檔 PDF,讓你快速入門Python



推薦個人微信號

來圍觀個人朋友圈,個人經驗分享,技術更新,不按期送書,坑位有限,速速掃碼添加!
備註:開發方向_暱稱_城市,另送你10本Python電子書。


點個在看,你最好看

本文分享自微信公衆號 - 印象Python(Python_logic)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索