記一次關於sklearn.datasets.fetch_20newsgroups的下載速度極慢的解決

最近, 耗子我在作關於互聯網新聞分類的項目, 須要用到sklearn.datasets裏新聞數據抓取器fetch_20newsgroups, 而當將參數subset設置爲'all'時, fetch_20newsgroups須要即時從互聯網下載數據, So:python

垃圾下載速度

稍有python下載經驗的就知道, 1M就得等好久了, 這是14M, 啊啊!瀏覽器


So:老辦法一

直接複製圖片中的網址下載:多線程

https://ndownloader.figshare.com/files/5975967

而後, 依然很慢......
火狐自帶的下載器編輯器


So:老辦法二

複製連接, 用火狐瀏覽器插件多線程下載器下載
額, 也不算快啊......
速度還行......函數


So:老辦法三

直接複製連接給迅雷呀!? 剛咋沒想到呢????
行吧, 還算迅雷給力......fetch

接下來。。。

問題又來了, 有文件了, Python 怎麼讀取啊???
文件名是 20newsbydate.tar.gz
而後我就搜了 Python如何讀取gz文件
大概是我中午沒睡好吧, 搜這幹嗎......spa

幾經波折, 終於找到了......
感謝大神的分享: 這裏是原文.net

在此說明以下:
fetch_20newsgroups函數將下載的文件放在
C:\Users\(你的user_name)\scikit_learn_data\20news_home目錄下
將你下載的文件放在這裏插件

注:
Python下載的文件叫20new-sbydate.tar.gz
你下載的叫20newsbydate.tar.gz
因此改爲它那樣的就成
(不過本身應該先看下, 你那個版本的Python下載的文件名字是啥)線程


慢慢找。。。。。。

進入Python安裝文件夾中找到文件 twenty_newsgroups.py

用任意文本編輯器打開它
找到download_20newsgroups函數
download_20newsgroups函數

上紅框是下載文件的部分, 下紅框是解壓文件的部分
So, 咱們只須要將上紅框註釋掉, 並加入文件地址便可
而後, ctrl+s , 如圖:
記着Ctrl+s

有可能再報一個縮進的錯:
縮進錯誤

縮進嘛, 看下哪行的4個空格變成一個Tab了, 改過來便可


So:

OK了!!

這是耗子我第一次發文章, 有錯誤的請不吝賜教, 耗子必定改正。 明天就是中秋節了, 如今的實驗室空空蕩蕩的只剩下咱們幾個了, 提早祝你們中秋快樂!

相關文章
相關標籤/搜索