google-images-download 批量下載數量限制解決辦法

 google-images-download 用於批量下載圖片

google-images-download 是個 Python 腳本。一條命令,就完成 Google 圖片搜索和批量下載功能。而且,這工具還跨平臺運行,Linux, Windows 和 macOS 都支持。簡直是懶人福音。

首先,我們先指定圖片要下載的位置,我把它指定到了「下載(Download)」這個文件夾:

cd ~/Downloads

然後,在終端裏執行即可:

googleimagesdownload -k "譚卓" -l 20

這行代碼中:

  • googleimagesdownload 是命令名,告訴系統我們現在要執行什麼命令,現在我們要執行的就是「googleimagesdownload」這個命令。
  • -k 指的是「關鍵詞(Keyword)」,所以它的後面緊跟着關鍵詞,在這裏是 "譚卓",注意關鍵詞要用半角直雙引號框起來。
  • -l 指的是「限定(limit)」,指定下載圖片的數量。本例中,我們下載了 20 張。

最後的 Error: 1 說明, 下載過程中,發生了一個錯誤。但程序依然正常地將下載流程運行完畢。

我們發現,下載的圖片已經都存放在 ~/Downloads/downloads/譚卓 下面。google-images-download 非常貼心地,爲我們建立子目錄。

基本上,這一行命令就能幫我們解決正常情況下,批量下載圖片的需求了。

 

然而,在有的情況下,我們需要下載的圖片遠遠大於 20 張。比如說我看了半天照片,還是分不大清楚郝蕾和譚卓。那麼爲了徹底分清兩位女演員,我打算再下載 200 張郝蕾的照片試試。

仿照剛纔的命令,執行:

googleimagesdownload -k "郝蕾" -l 200

然後,你會發現報錯了:

遇到問題,不要慌。你得認真看看錯誤提示。注意其中出現了一個關鍵詞:chromedriver。這是個什麼東西呢?

我們回到 google-images-download 的 github 頁面,以 chromedriver 爲關鍵詞進行檢索。你會立即找到如下結果:

原來,當我們下載的圖片數量超過 100 張時,程序就必須調用 Selenium 和 chromedriver 才行。不知道它倆是啥無所謂,要了咱裝就行了。

Selenium 在我們安裝 google-images-download 的時候,就已經同時安裝好了。現在我們只需要下載 chromedriver 即可

 

接下來我們就可以批量下載超過 100 張圖片了。執行以下命令:

googleimagesdownload -k "郝蕾" -l 200 --chromedriver="./chromedriver"

我們會發現多了一個 參數 --chromedriver。它是用來告訴 google-images-download 解壓後 chromedriver 的所在路徑。這回機器勤勤懇懇,幫我們下載郝蕾的照片了

 

下載完畢後發現也有一些報錯,部分圖片沒有正確下載。但這對總體結果沒有太大影響。爲了保險起見,建議你設置下載數量時,多設置一些。給自己留出安全邊際嘛。

 

運行參數

我數了一下,一共有39項。篇幅所限,這裏就不一一展開羅列了。但是其中幾個特色參數,我還是希望提示你一下,因爲你在實際工作中,很可能會覺得它們有用處。

  • --format: 選擇圖片格式,例如 jpg, png, gif 和 svg 等;
  • --usage_rights:選擇圖片版權,例如 labeled-for-nocommercial-reuse 等。如果你希望建立自己發佈內容用的圖片素材庫,可以用這個選項,避免踩到版權的坑上,被人家獅子大開口要錢;
  • --size:選擇圖片大小。假如說你對於圖片分辨率有要求,可以用 >10MP ,只下載像素數量超過 10M 的那些圖片;
  • --type:選擇圖片類型。例如只想要照片,可以用 photo ,只想要動漫形象,可以用 animated ;
  • --time:選擇圖片被檢索的時間。假如想要過去一週的圖片,可以使用 past-7-days;
  • --specific_site:指定圖片存儲網站。可以將搜索結果,限定在某個網站域名範圍內;

最後還有一個參數,是 ---safe_search,它的作用是啓用安全搜索,來保證搜索結果中,不會出現不利於精神文明建設的內容。