Python3 爬蟲自學筆記,爬取小說(四)

感謝做者分享-http://bjbsair.com/2020-04-07...html

鄭智化-別哭,我最愛的人.mp3微信

03:32.34200000000001學習

來自居家IT男優化

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件,主要熟悉了Python爬蟲的基本代碼,但缺乏實用性。網站

我的觀點:對於小說爬取,主要有兩個方面能夠嘗試進一步優化,一是直接在可提供下載txt連接的小說網站直接爬取txt文件,可節省代碼運行時間;二是對於還在更新中的小說,不定時檢測小說更新狀態,並推送最新更新信息,可嘗試經過郵件、微信、短信等方式推送信息。編碼

1 功能及版本說明

功能:提供小說名稱,檢索小說網站,爬取網站小說txt連接,並下載。spa

版本:v1.43d

更新說明:code

在可提供txt連接的小說網站進行爬取小說連接進行下載。htm

2 開發環境

開發環境:Python3和PyCharm;

3 網站介紹及分析

網上搜索了一下,可實現小說txt下載的網站較多,這裏以無限小說網爲例,網址爲:https://www.555x.org/

選擇一本小說,其小說主頁面網址爲:https://www.555x.org/html/xua...;下載頁面網址爲:https://www.555x.org/down/160...。由此能夠看出,每一本小說有惟一對應編號,《卡徒》的編號爲16089。

Python爬蟲自學筆記:爬取小說(四)

Python爬蟲自學筆記:爬取小說(四)

查看下載地址源碼,具體以下:

Python爬蟲自學筆記:爬取小說(四)

從圖中能夠看出,小說txt下載連接爲:https://www.555x.org/home/dow...,其代碼結構很簡單,網址中"16089"編號表明小說《卡徒》,網址中其餘固定不變,只改變最後編號能夠對其餘小說進行下載。

嘗試改變了一下編號,發現"16090"編號是小說《調教初唐》,"16088"編號書籍不存在,由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1) 提供小說名稱;

2) 在小說網站檢索小說,提取小說對應編號;

3) 下載小說;

5 代碼實現(1)

實現下說下載的代碼:

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間:" + str(round(end_time - start_time))  + "s")

非完整代碼,後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼,查看下載網址反饋的編碼格式爲ISO-8859-1,在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看:r.encoding;

8 結束語

本次代碼只是實現了根據小說下載連接對小說進行下載,代碼較簡單;在以後要完善小說的檢索代碼,即提供輸入窗口,輸入小說名稱,在網站檢索小說,提取下載連接。

將這次編碼的過程及源碼分享給你們,供你們參考。對於錯誤的地方,或有更好的建議,但願你們提出來,不勝感激!感謝做者分享-http://bjbsair.com/2020-04-07...

鄭智化-別哭,我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件,主要熟悉了Python爬蟲的基本代碼,但缺乏實用性。

我的觀點:對於小說爬取,主要有兩個方面能夠嘗試進一步優化,一是直接在可提供下載txt連接的小說網站直接爬取txt文件,可節省代碼運行時間;二是對於還在更新中的小說,不定時檢測小說更新狀態,並推送最新更新信息,可嘗試經過郵件、微信、短信等方式推送信息。

1 功能及版本說明

功能:提供小說名稱,檢索小說網站,爬取網站小說txt連接,並下載。

版本:v1.4

更新說明:

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境:Python3和PyCharm;

3 網站介紹及分析

網上搜索了一下,可實現小說txt下載的網站較多,這裏以無限小說網爲例,網址爲:https://www.555x.org/

選擇一本小說,其小說主頁面網址爲:https://www.555x.org/html/xua...;下載頁面網址爲:https://www.555x.org/down/160...。由此能夠看出,每一本小說有惟一對應編號,《卡徒》的編號爲16089。

Python爬蟲自學筆記:爬取小說(四)

Python爬蟲自學筆記:爬取小說(四)

查看下載地址源碼,具體以下:

Python爬蟲自學筆記:爬取小說(四)

從圖中能夠看出,小說txt下載連接爲:https://www.555x.org/home/dow...,其代碼結構很簡單,網址中"16089"編號表明小說《卡徒》,網址中其餘固定不變,只改變最後編號能夠對其餘小說進行下載。

嘗試改變了一下編號,發現"16090"編號是小說《調教初唐》,"16088"編號書籍不存在,由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1) 提供小說名稱;

2) 在小說網站檢索小說,提取小說對應編號;

3) 下載小說;

5 代碼實現(1)

實現下說下載的代碼:

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間:" + str(round(end_time - start_time))  + "s")

非完整代碼,後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼,查看下載網址反饋的編碼格式爲ISO-8859-1,在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看:r.encoding;

8 結束語

本次代碼只是實現了根據小說下載連接對小說進行下載,代碼較簡單;在以後要完善小說的檢索代碼,即提供輸入窗口,輸入小說名稱,在網站檢索小說,提取下載連接。

將這次編碼的過程及源碼分享給你們,供你們參考。對於錯誤的地方,或有更好的建議,但願你們提出來,不勝感激!感謝做者分享-http://bjbsair.com/2020-04-07...

鄭智化-別哭,我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件,主要熟悉了Python爬蟲的基本代碼,但缺乏實用性。

我的觀點:對於小說爬取,主要有兩個方面能夠嘗試進一步優化,一是直接在可提供下載txt連接的小說網站直接爬取txt文件,可節省代碼運行時間;二是對於還在更新中的小說,不定時檢測小說更新狀態,並推送最新更新信息,可嘗試經過郵件、微信、短信等方式推送信息。

1 功能及版本說明

功能:提供小說名稱,檢索小說網站,爬取網站小說txt連接,並下載。

版本:v1.4

更新說明:

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境:Python3和PyCharm;

3 網站介紹及分析

網上搜索了一下,可實現小說txt下載的網站較多,這裏以無限小說網爲例,網址爲:https://www.555x.org/

選擇一本小說,其小說主頁面網址爲:https://www.555x.org/html/xua...;下載頁面網址爲:https://www.555x.org/down/160...。由此能夠看出,每一本小說有惟一對應編號,《卡徒》的編號爲16089。

Python爬蟲自學筆記:爬取小說(四)

Python爬蟲自學筆記:爬取小說(四)

查看下載地址源碼,具體以下:

Python爬蟲自學筆記:爬取小說(四)

從圖中能夠看出,小說txt下載連接爲:https://www.555x.org/home/dow...,其代碼結構很簡單,網址中"16089"編號表明小說《卡徒》,網址中其餘固定不變,只改變最後編號能夠對其餘小說進行下載。

嘗試改變了一下編號,發現"16090"編號是小說《調教初唐》,"16088"編號書籍不存在,由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1) 提供小說名稱;

2) 在小說網站檢索小說,提取小說對應編號;

3) 下載小說;

5 代碼實現(1)

實現下說下載的代碼:

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間:" + str(round(end_time - start_time))  + "s")

非完整代碼,後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼,查看下載網址反饋的編碼格式爲ISO-8859-1,在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看:r.encoding;

8 結束語

本次代碼只是實現了根據小說下載連接對小說進行下載,代碼較簡單;在以後要完善小說的檢索代碼,即提供輸入窗口,輸入小說名稱,在網站檢索小說,提取下載連接。

將這次編碼的過程及源碼分享給你們,供你們參考。對於錯誤的地方,或有更好的建議,但願你們提出來,不勝感激!感謝做者分享-http://bjbsair.com/2020-04-07...

鄭智化-別哭,我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件,主要熟悉了Python爬蟲的基本代碼,但缺乏實用性。

我的觀點:對於小說爬取,主要有兩個方面能夠嘗試進一步優化,一是直接在可提供下載txt連接的小說網站直接爬取txt文件,可節省代碼運行時間;二是對於還在更新中的小說,不定時檢測小說更新狀態,並推送最新更新信息,可嘗試經過郵件、微信、短信等方式推送信息。

1 功能及版本說明

功能:提供小說名稱,檢索小說網站,爬取網站小說txt連接,並下載。

版本:v1.4

更新說明:

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境:Python3和PyCharm;

3 網站介紹及分析

網上搜索了一下,可實現小說txt下載的網站較多,這裏以無限小說網爲例,網址爲:https://www.555x.org/

選擇一本小說,其小說主頁面網址爲:https://www.555x.org/html/xua...;下載頁面網址爲:https://www.555x.org/down/160...。由此能夠看出,每一本小說有惟一對應編號,《卡徒》的編號爲16089。

Python爬蟲自學筆記:爬取小說(四)

Python爬蟲自學筆記:爬取小說(四)

查看下載地址源碼,具體以下:

Python爬蟲自學筆記:爬取小說(四)

從圖中能夠看出,小說txt下載連接爲:https://www.555x.org/home/dow...,其代碼結構很簡單,網址中"16089"編號表明小說《卡徒》,網址中其餘固定不變,只改變最後編號能夠對其餘小說進行下載。

嘗試改變了一下編號,發現"16090"編號是小說《調教初唐》,"16088"編號書籍不存在,由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1) 提供小說名稱;

2) 在小說網站檢索小說,提取小說對應編號;

3) 下載小說;

5 代碼實現(1)

實現下說下載的代碼:

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間:" + str(round(end_time - start_time))  + "s")

非完整代碼,後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼,查看下載網址反饋的編碼格式爲ISO-8859-1,在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看:r.encoding;

8 結束語

本次代碼只是實現了根據小說下載連接對小說進行下載,代碼較簡單;在以後要完善小說的檢索代碼,即提供輸入窗口,輸入小說名稱,在網站檢索小說,提取下載連接。

將這次編碼的過程及源碼分享給你們,供你們參考。對於錯誤的地方,或有更好的建議,但願你們提出來,不勝感激!感謝做者分享-http://bjbsair.com/2020-04-07...

鄭智化-別哭,我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件,主要熟悉了Python爬蟲的基本代碼,但缺乏實用性。

我的觀點:對於小說爬取,主要有兩個方面能夠嘗試進一步優化,一是直接在可提供下載txt連接的小說網站直接爬取txt文件,可節省代碼運行時間;二是對於還在更新中的小說,不定時檢測小說更新狀態,並推送最新更新信息,可嘗試經過郵件、微信、短信等方式推送信息。

1 功能及版本說明

功能:提供小說名稱,檢索小說網站,爬取網站小說txt連接,並下載。

版本:v1.4

更新說明:

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境:Python3和PyCharm;

3 網站介紹及分析

網上搜索了一下,可實現小說txt下載的網站較多,這裏以無限小說網爲例,網址爲:https://www.555x.org/

選擇一本小說,其小說主頁面網址爲:https://www.555x.org/html/xua...;下載頁面網址爲:https://www.555x.org/down/160...。由此能夠看出,每一本小說有惟一對應編號,《卡徒》的編號爲16089。

Python爬蟲自學筆記:爬取小說(四)

Python爬蟲自學筆記:爬取小說(四)

查看下載地址源碼,具體以下:

Python爬蟲自學筆記:爬取小說(四)

從圖中能夠看出,小說txt下載連接爲:https://www.555x.org/home/dow...,其代碼結構很簡單,網址中"16089"編號表明小說《卡徒》,網址中其餘固定不變,只改變最後編號能夠對其餘小說進行下載。

嘗試改變了一下編號,發現"16090"編號是小說《調教初唐》,"16088"編號書籍不存在,由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1) 提供小說名稱;

2) 在小說網站檢索小說,提取小說對應編號;

3) 下載小說;

5 代碼實現(1)

實現下說下載的代碼:

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間:" + str(round(end_time - start_time))  + "s")

非完整代碼,後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼,查看下載網址反饋的編碼格式爲ISO-8859-1,在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看:r.encoding;

8 結束語

本次代碼只是實現了根據小說下載連接對小說進行下載,代碼較簡單;在以後要完善小說的檢索代碼,即提供輸入窗口,輸入小說名稱,在網站檢索小說,提取下載連接。

將這次編碼的過程及源碼分享給你們,供你們參考。對於錯誤的地方,或有更好的建議,但願你們提出來,不勝感激!感謝做者分享-http://bjbsair.com/2020-04-07...

鄭智化-別哭,我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件,主要熟悉了Python爬蟲的基本代碼,但缺乏實用性。

我的觀點:對於小說爬取,主要有兩個方面能夠嘗試進一步優化,一是直接在可提供下載txt連接的小說網站直接爬取txt文件,可節省代碼運行時間;二是對於還在更新中的小說,不定時檢測小說更新狀態,並推送最新更新信息,可嘗試經過郵件、微信、短信等方式推送信息。

1 功能及版本說明

功能:提供小說名稱,檢索小說網站,爬取網站小說txt連接,並下載。

版本:v1.4

更新說明:

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境:Python3和PyCharm;

3 網站介紹及分析

網上搜索了一下,可實現小說txt下載的網站較多,這裏以無限小說網爲例,網址爲:https://www.555x.org/

選擇一本小說,其小說主頁面網址爲:https://www.555x.org/html/xua...;下載頁面網址爲:https://www.555x.org/down/160...。由此能夠看出,每一本小說有惟一對應編號,《卡徒》的編號爲16089。

Python爬蟲自學筆記:爬取小說(四)

Python爬蟲自學筆記:爬取小說(四)

查看下載地址源碼,具體以下:

Python爬蟲自學筆記:爬取小說(四)

從圖中能夠看出,小說txt下載連接爲:https://www.555x.org/home/dow...,其代碼結構很簡單,網址中"16089"編號表明小說《卡徒》,網址中其餘固定不變,只改變最後編號能夠對其餘小說進行下載。

嘗試改變了一下編號,發現"16090"編號是小說《調教初唐》,"16088"編號書籍不存在,由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1) 提供小說名稱;

2) 在小說網站檢索小說,提取小說對應編號;

3) 下載小說;

5 代碼實現(1)

實現下說下載的代碼:

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間:" + str(round(end_time - start_time))  + "s")

非完整代碼,後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼,查看下載網址反饋的編碼格式爲ISO-8859-1,在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看:r.encoding;

8 結束語

本次代碼只是實現了根據小說下載連接對小說進行下載,代碼較簡單;在以後要完善小說的檢索代碼,即提供輸入窗口,輸入小說名稱,在網站檢索小說,提取下載連接。

將這次編碼的過程及源碼分享給你們,供你們參考。對於錯誤的地方,或有更好的建議,但願你們提出來,不勝感激!感謝做者分享-http://bjbsair.com/2020-04-07...

鄭智化-別哭,我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件,主要熟悉了Python爬蟲的基本代碼,但缺乏實用性。

我的觀點:對於小說爬取,主要有兩個方面能夠嘗試進一步優化,一是直接在可提供下載txt連接的小說網站直接爬取txt文件,可節省代碼運行時間;二是對於還在更新中的小說,不定時檢測小說更新狀態,並推送最新更新信息,可嘗試經過郵件、微信、短信等方式推送信息。

1 功能及版本說明

功能:提供小說名稱,檢索小說網站,爬取網站小說txt連接,並下載。

版本:v1.4

更新說明:

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境:Python3和PyCharm;

3 網站介紹及分析

網上搜索了一下,可實現小說txt下載的網站較多,這裏以無限小說網爲例,網址爲:https://www.555x.org/

選擇一本小說,其小說主頁面網址爲:https://www.555x.org/html/xua...;下載頁面網址爲:https://www.555x.org/down/160...。由此能夠看出,每一本小說有惟一對應編號,《卡徒》的編號爲16089。

Python爬蟲自學筆記:爬取小說(四)

Python爬蟲自學筆記:爬取小說(四)

查看下載地址源碼,具體以下:

Python爬蟲自學筆記:爬取小說(四)

從圖中能夠看出,小說txt下載連接爲:https://www.555x.org/home/dow...,其代碼結構很簡單,網址中"16089"編號表明小說《卡徒》,網址中其餘固定不變,只改變最後編號能夠對其餘小說進行下載。

嘗試改變了一下編號,發現"16090"編號是小說《調教初唐》,"16088"編號書籍不存在,由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1) 提供小說名稱;

2) 在小說網站檢索小說,提取小說對應編號;

3) 下載小說;

5 代碼實現(1)

實現下說下載的代碼:

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間:" + str(round(end_time - start_time))  + "s")

非完整代碼,後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼,查看下載網址反饋的編碼格式爲ISO-8859-1,在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看:r.encoding;

8 結束語

本次代碼只是實現了根據小說下載連接對小說進行下載,代碼較簡單;在以後要完善小說的檢索代碼,即提供輸入窗口,輸入小說名稱,在網站檢索小說,提取下載連接。

將這次編碼的過程及源碼分享給你們,供你們參考。對於錯誤的地方,或有更好的建議,但願你們提出來,不勝感激!感謝做者分享-http://bjbsair.com/2020-04-07...

鄭智化-別哭,我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件,主要熟悉了Python爬蟲的基本代碼,但缺乏實用性。

我的觀點:對於小說爬取,主要有兩個方面能夠嘗試進一步優化,一是直接在可提供下載txt連接的小說網站直接爬取txt文件,可節省代碼運行時間;二是對於還在更新中的小說,不定時檢測小說更新狀態,並推送最新更新信息,可嘗試經過郵件、微信、短信等方式推送信息。

1 功能及版本說明

功能:提供小說名稱,檢索小說網站,爬取網站小說txt連接,並下載。

版本:v1.4

更新說明:

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境:Python3和PyCharm;

3 網站介紹及分析

網上搜索了一下,可實現小說txt下載的網站較多,這裏以無限小說網爲例,網址爲:https://www.555x.org/

選擇一本小說,其小說主頁面網址爲:https://www.555x.org/html/xua...;下載頁面網址爲:https://www.555x.org/down/160...。由此能夠看出,每一本小說有惟一對應編號,《卡徒》的編號爲16089。

Python爬蟲自學筆記:爬取小說(四)

Python爬蟲自學筆記:爬取小說(四)

查看下載地址源碼,具體以下:

Python爬蟲自學筆記:爬取小說(四)

從圖中能夠看出,小說txt下載連接爲:https://www.555x.org/home/dow...,其代碼結構很簡單,網址中"16089"編號表明小說《卡徒》,網址中其餘固定不變,只改變最後編號能夠對其餘小說進行下載。

嘗試改變了一下編號,發現"16090"編號是小說《調教初唐》,"16088"編號書籍不存在,由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1) 提供小說名稱;

2) 在小說網站檢索小說,提取小說對應編號;

3) 下載小說;

5 代碼實現(1)

實現下說下載的代碼:

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間:" + str(round(end_time - start_time))  + "s")

非完整代碼,後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼,查看下載網址反饋的編碼格式爲ISO-8859-1,在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看:r.encoding;

8 結束語

本次代碼只是實現了根據小說下載連接對小說進行下載,代碼較簡單;在以後要完善小說的檢索代碼,即提供輸入窗口,輸入小說名稱,在網站檢索小說,提取下載連接。

將這次編碼的過程及源碼分享給你們,供你們參考。對於錯誤的地方,或有更好的建議,但願你們提出來,不勝感激!感謝做者分享-http://bjbsair.com/2020-04-07...

鄭智化-別哭,我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件,主要熟悉了Python爬蟲的基本代碼,但缺乏實用性。

我的觀點:對於小說爬取,主要有兩個方面能夠嘗試進一步優化,一是直接在可提供下載txt連接的小說網站直接爬取txt文件,可節省代碼運行時間;二是對於還在更新中的小說,不定時檢測小說更新狀態,並推送最新更新信息,可嘗試經過郵件、微信、短信等方式推送信息。

1 功能及版本說明

功能:提供小說名稱,檢索小說網站,爬取網站小說txt連接,並下載。

版本:v1.4

更新說明:

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境:Python3和PyCharm;

3 網站介紹及分析

網上搜索了一下,可實現小說txt下載的網站較多,這裏以無限小說網爲例,網址爲:https://www.555x.org/

選擇一本小說,其小說主頁面網址爲:https://www.555x.org/html/xua...;下載頁面網址爲:https://www.555x.org/down/160...。由此能夠看出,每一本小說有惟一對應編號,《卡徒》的編號爲16089。

Python爬蟲自學筆記:爬取小說(四)

Python爬蟲自學筆記:爬取小說(四)

查看下載地址源碼,具體以下:

Python爬蟲自學筆記:爬取小說(四)

從圖中能夠看出,小說txt下載連接爲:https://www.555x.org/home/dow...,其代碼結構很簡單,網址中"16089"編號表明小說《卡徒》,網址中其餘固定不變,只改變最後編號能夠對其餘小說進行下載。

嘗試改變了一下編號,發現"16090"編號是小說《調教初唐》,"16088"編號書籍不存在,由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1) 提供小說名稱;

2) 在小說網站檢索小說,提取小說對應編號;

3) 下載小說;

5 代碼實現(1)

實現下說下載的代碼:

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間:" + str(round(end_time - start_time))  + "s")

非完整代碼,後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼,查看下載網址反饋的編碼格式爲ISO-8859-1,在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看:r.encoding;

8 結束語

本次代碼只是實現了根據小說下載連接對小說進行下載,代碼較簡單;在以後要完善小說的檢索代碼,即提供輸入窗口,輸入小說名稱,在網站檢索小說,提取下載連接。

將這次編碼的過程及源碼分享給你們,供你們參考。對於錯誤的地方,或有更好的建議,但願你們提出來,不勝感激!感謝做者分享-http://bjbsair.com/2020-04-07...

鄭智化-別哭,我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件,主要熟悉了Python爬蟲的基本代碼,但缺乏實用性。

我的觀點:對於小說爬取,主要有兩個方面能夠嘗試進一步優化,一是直接在可提供下載txt連接的小說網站直接爬取txt文件,可節省代碼運行時間;二是對於還在更新中的小說,不定時檢測小說更新狀態,並推送最新更新信息,可嘗試經過郵件、微信、短信等方式推送信息。

1 功能及版本說明

功能:提供小說名稱,檢索小說網站,爬取網站小說txt連接,並下載。

版本:v1.4

更新說明:

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境:Python3和PyCharm;

3 網站介紹及分析

網上搜索了一下,可實現小說txt下載的網站較多,這裏以無限小說網爲例,網址爲:https://www.555x.org/

選擇一本小說,其小說主頁面網址爲:https://www.555x.org/html/xua...;下載頁面網址爲:https://www.555x.org/down/160...。由此能夠看出,每一本小說有惟一對應編號,《卡徒》的編號爲16089。

Python爬蟲自學筆記:爬取小說(四)

Python爬蟲自學筆記:爬取小說(四)

查看下載地址源碼,具體以下:

Python爬蟲自學筆記:爬取小說(四)

從圖中能夠看出,小說txt下載連接爲:https://www.555x.org/home/dow...,其代碼結構很簡單,網址中"16089"編號表明小說《卡徒》,網址中其餘固定不變,只改變最後編號能夠對其餘小說進行下載。

嘗試改變了一下編號,發現"16090"編號是小說《調教初唐》,"16088"編號書籍不存在,由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1) 提供小說名稱;

2) 在小說網站檢索小說,提取小說對應編號;

3) 下載小說;

5 代碼實現(1)

實現下說下載的代碼:

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間:" + str(round(end_time - start_time))  + "s")

非完整代碼,後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼,查看下載網址反饋的編碼格式爲ISO-8859-1,在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看:r.encoding;

8 結束語

本次代碼只是實現了根據小說下載連接對小說進行下載,代碼較簡單;在以後要完善小說的檢索代碼,即提供輸入窗口,輸入小說名稱,在網站檢索小說,提取下載連接。

將這次編碼的過程及源碼分享給你們,供你們參考。對於錯誤的地方,或有更好的建議,但願你們提出來,不勝感激!感謝做者分享-http://bjbsair.com/2020-04-07...

鄭智化-別哭,我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件,主要熟悉了Python爬蟲的基本代碼,但缺乏實用性。

我的觀點:對於小說爬取,主要有兩個方面能夠嘗試進一步優化,一是直接在可提供下載txt連接的小說網站直接爬取txt文件,可節省代碼運行時間;二是對於還在更新中的小說,不定時檢測小說更新狀態,並推送最新更新信息,可嘗試經過郵件、微信、短信等方式推送信息。

1 功能及版本說明

功能:提供小說名稱,檢索小說網站,爬取網站小說txt連接,並下載。

版本:v1.4

更新說明:

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境:Python3和PyCharm;

3 網站介紹及分析

網上搜索了一下,可實現小說txt下載的網站較多,這裏以無限小說網爲例,網址爲:https://www.555x.org/

選擇一本小說,其小說主頁面網址爲:https://www.555x.org/html/xua...;下載頁面網址爲:https://www.555x.org/down/160...。由此能夠看出,每一本小說有惟一對應編號,《卡徒》的編號爲16089。

Python爬蟲自學筆記:爬取小說(四)

Python爬蟲自學筆記:爬取小說(四)

查看下載地址源碼,具體以下:

Python爬蟲自學筆記:爬取小說(四)

從圖中能夠看出,小說txt下載連接爲:https://www.555x.org/home/dow...,其代碼結構很簡單,網址中"16089"編號表明小說《卡徒》,網址中其餘固定不變,只改變最後編號能夠對其餘小說進行下載。

嘗試改變了一下編號,發現"16090"編號是小說《調教初唐》,"16088"編號書籍不存在,由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1) 提供小說名稱;

2) 在小說網站檢索小說,提取小說對應編號;

3) 下載小說;

5 代碼實現(1)

實現下說下載的代碼:

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間:" + str(round(end_time - start_time))  + "s")

非完整代碼,後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼,查看下載網址反饋的編碼格式爲ISO-8859-1,在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看:r.encoding;

8 結束語

本次代碼只是實現了根據小說下載連接對小說進行下載,代碼較簡單;在以後要完善小說的檢索代碼,即提供輸入窗口,輸入小說名稱,在網站檢索小說,提取下載連接。

將這次編碼的過程及源碼分享給你們,供你們參考。對於錯誤的地方,或有更好的建議,但願你們提出來,不勝感激!感謝做者分享-http://bjbsair.com/2020-04-07...

鄭智化-別哭,我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件,主要熟悉了Python爬蟲的基本代碼,但缺乏實用性。

我的觀點:對於小說爬取,主要有兩個方面能夠嘗試進一步優化,一是直接在可提供下載txt連接的小說網站直接爬取txt文件,可節省代碼運行時間;二是對於還在更新中的小說,不定時檢測小說更新狀態,並推送最新更新信息,可嘗試經過郵件、微信、短信等方式推送信息。

1 功能及版本說明

功能:提供小說名稱,檢索小說網站,爬取網站小說txt連接,並下載。

版本:v1.4

更新說明:

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境:Python3和PyCharm;

3 網站介紹及分析

網上搜索了一下,可實現小說txt下載的網站較多,這裏以無限小說網爲例,網址爲:https://www.555x.org/

選擇一本小說,其小說主頁面網址爲:https://www.555x.org/html/xua...;下載頁面網址爲:https://www.555x.org/down/160...。由此能夠看出,每一本小說有惟一對應編號,《卡徒》的編號爲16089。

Python爬蟲自學筆記:爬取小說(四)

Python爬蟲自學筆記:爬取小說(四)

查看下載地址源碼,具體以下:

Python爬蟲自學筆記:爬取小說(四)

從圖中能夠看出,小說txt下載連接爲:https://www.555x.org/home/dow...,其代碼結構很簡單,網址中"16089"編號表明小說《卡徒》,網址中其餘固定不變,只改變最後編號能夠對其餘小說進行下載。

嘗試改變了一下編號,發現"16090"編號是小說《調教初唐》,"16088"編號書籍不存在,由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1) 提供小說名稱;

2) 在小說網站檢索小說,提取小說對應編號;

3) 下載小說;

5 代碼實現(1)

實現下說下載的代碼:

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間:" + str(round(end_time - start_time))  + "s")

非完整代碼,後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼,查看下載網址反饋的編碼格式爲ISO-8859-1,在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看:r.encoding;

8 結束語

本次代碼只是實現了根據小說下載連接對小說進行下載,代碼較簡單;在以後要完善小說的檢索代碼,即提供輸入窗口,輸入小說名稱,在網站檢索小說,提取下載連接。

將這次編碼的過程及源碼分享給你們,供你們參考。對於錯誤的地方,或有更好的建議,但願你們提出來,不勝感激!感謝做者分享-http://bjbsair.com/2020-04-07...

鄭智化-別哭,我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件,主要熟悉了Python爬蟲的基本代碼,但缺乏實用性。

我的觀點:對於小說爬取,主要有兩個方面能夠嘗試進一步優化,一是直接在可提供下載txt連接的小說網站直接爬取txt文件,可節省代碼運行時間;二是對於還在更新中的小說,不定時檢測小說更新狀態,並推送最新更新信息,可嘗試經過郵件、微信、短信等方式推送信息。

1 功能及版本說明

功能:提供小說名稱,檢索小說網站,爬取網站小說txt連接,並下載。

版本:v1.4

更新說明:

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境:Python3和PyCharm;

3 網站介紹及分析

網上搜索了一下,可實現小說txt下載的網站較多,這裏以無限小說網爲例,網址爲:https://www.555x.org/

選擇一本小說,其小說主頁面網址爲:https://www.555x.org/html/xua...;下載頁面網址爲:https://www.555x.org/down/160...。由此能夠看出,每一本小說有惟一對應編號,《卡徒》的編號爲16089。

Python爬蟲自學筆記:爬取小說(四)

Python爬蟲自學筆記:爬取小說(四)

查看下載地址源碼,具體以下:

Python爬蟲自學筆記:爬取小說(四)

從圖中能夠看出,小說txt下載連接爲:https://www.555x.org/home/dow...,其代碼結構很簡單,網址中"16089"編號表明小說《卡徒》,網址中其餘固定不變,只改變最後編號能夠對其餘小說進行下載。

嘗試改變了一下編號,發現"16090"編號是小說《調教初唐》,"16088"編號書籍不存在,由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1) 提供小說名稱;

2) 在小說網站檢索小說,提取小說對應編號;

3) 下載小說;

5 代碼實現(1)

實現下說下載的代碼:

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間:" + str(round(end_time - start_time))  + "s")

非完整代碼,後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼,查看下載網址反饋的編碼格式爲ISO-8859-1,在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看:r.encoding;

8 結束語

本次代碼只是實現了根據小說下載連接對小說進行下載,代碼較簡單;在以後要完善小說的檢索代碼,即提供輸入窗口,輸入小說名稱,在網站檢索小說,提取下載連接。

將這次編碼的過程及源碼分享給你們,供你們參考。對於錯誤的地方,或有更好的建議,但願你們提出來,不勝感激!感謝做者分享-http://bjbsair.com/2020-04-07...

鄭智化-別哭,我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件,主要熟悉了Python爬蟲的基本代碼,但缺乏實用性。

我的觀點:對於小說爬取,主要有兩個方面能夠嘗試進一步優化,一是直接在可提供下載txt連接的小說網站直接爬取txt文件,可節省代碼運行時間;二是對於還在更新中的小說,不定時檢測小說更新狀態,並推送最新更新信息,可嘗試經過郵件、微信、短信等方式推送信息。

1 功能及版本說明

功能:提供小說名稱,檢索小說網站,爬取網站小說txt連接,並下載。

版本:v1.4

更新說明:

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境:Python3和PyCharm;

3 網站介紹及分析

網上搜索了一下,可實現小說txt下載的網站較多,這裏以無限小說網爲例,網址爲:https://www.555x.org/

選擇一本小說,其小說主頁面網址爲:https://www.555x.org/html/xua...;下載頁面網址爲:https://www.555x.org/down/160...。由此能夠看出,每一本小說有惟一對應編號,《卡徒》的編號爲16089。

Python爬蟲自學筆記:爬取小說(四)

Python爬蟲自學筆記:爬取小說(四)

查看下載地址源碼,具體以下:

Python爬蟲自學筆記:爬取小說(四)

從圖中能夠看出,小說txt下載連接爲:https://www.555x.org/home/dow...,其代碼結構很簡單,網址中"16089"編號表明小說《卡徒》,網址中其餘固定不變,只改變最後編號能夠對其餘小說進行下載。

嘗試改變了一下編號,發現"16090"編號是小說《調教初唐》,"16088"編號書籍不存在,由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1) 提供小說名稱;

2) 在小說網站檢索小說,提取小說對應編號;

3) 下載小說;

5 代碼實現(1)

實現下說下載的代碼:

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間:" + str(round(end_time - start_time))  + "s")

非完整代碼,後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼,查看下載網址反饋的編碼格式爲ISO-8859-1,在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看:r.encoding;

8 結束語

本次代碼只是實現了根據小說下載連接對小說進行下載,代碼較簡單;在以後要完善小說的檢索代碼,即提供輸入窗口,輸入小說名稱,在網站檢索小說,提取下載連接。

將這次編碼的過程及源碼分享給你們,供你們參考。對於錯誤的地方,或有更好的建議,但願你們提出來,不勝感激!

相關文章
相關標籤/搜索