最近, 耗子我在作關於互聯網新聞分類的項目, 須要用到sklearn.datasets裏新聞數據抓取器fetch_20newsgroups, 而當將參數subset設置爲'all'時, fetch_20newsgroups須要即時從互聯網下載數據, So:python
稍有python下載經驗的就知道, 1M就得等好久了, 這是14M, 啊啊!瀏覽器
直接複製圖片中的網址下載:多線程
https://ndownloader.figshare.com/files/5975967
而後, 依然很慢......
編輯器
複製連接, 用火狐瀏覽器插件多線程下載器下載
額, 也不算快啊......
函數
直接複製連接給迅雷呀!? 剛咋沒想到呢????
行吧, 還算迅雷給力......fetch
問題又來了, 有文件了, Python 怎麼讀取啊???
文件名是 20newsbydate.tar.gz
而後我就搜了 Python如何讀取gz文件
大概是我中午沒睡好吧, 搜這幹嗎......spa
幾經波折, 終於找到了......
感謝大神的分享: 這裏是原文.net
在此說明以下:
fetch_20newsgroups函數將下載的文件放在
C:\Users\(你的user_name)\scikit_learn_data\20news_home目錄下
將你下載的文件放在這裏插件
注:
Python下載的文件叫20new-sbydate.tar.gz
你下載的叫20newsbydate.tar.gz
因此改爲它那樣的就成
(不過本身應該先看下, 你那個版本的Python下載的文件名字是啥)線程
進入Python安裝文件夾中找到文件 twenty_newsgroups.py
用任意文本編輯器打開它
找到download_20newsgroups函數
上紅框是下載文件的部分, 下紅框是解壓文件的部分
So, 咱們只須要將上紅框註釋掉, 並加入文件地址便可
而後, ctrl+s , 如圖:
有可能再報一個縮進的錯:
縮進嘛, 看下哪行的4個空格變成一個Tab了, 改過來便可