Python3 爬蟲自學筆記,爬取小說(四)

時間 2020-05-20

原文原文鏈接

感謝做者分享-http://bjbsair.com/2020-04-07...html

鄭智化-別哭，我最愛的人.mp3微信

03:32.34200000000001學習

來自居家IT男優化

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件，主要熟悉了Python爬蟲的基本代碼，但缺乏實用性。網站

我的觀點：對於小說爬取，主要有兩個方面能夠嘗試進一步優化，一是直接在可提供下載txt連接的小說網站直接爬取txt文件，可節省代碼運行時間；二是對於還在更新中的小說，不定時檢測小說更新狀態，並推送最新更新信息，可嘗試經過郵件、微信、短信等方式推送信息。編碼

1 功能及版本說明

功能：提供小說名稱，檢索小說網站，爬取網站小說txt連接，並下載。spa

版本：v1.43d

更新說明：code

在可提供txt連接的小說網站進行爬取小說連接進行下載。htm

2 開發環境

開發環境：Python3和PyCharm；

3 網站介紹及分析

網上搜索了一下，可實現小說txt下載的網站較多，這裏以無限小說網爲例，網址爲：https://www.555x.org/。

選擇一本小說，其小說主頁面網址爲：https://www.555x.org/html/xua...；下載頁面網址爲：https://www.555x.org/down/160...。由此能夠看出，每一本小說有惟一對應編號，《卡徒》的編號爲16089。

查看下載地址源碼，具體以下：

從圖中能夠看出，小說txt下載連接爲：https://www.555x.org/home/dow...，其代碼結構很簡單，網址中"16089"編號表明小說《卡徒》，網址中其餘固定不變，只改變最後編號能夠對其餘小說進行下載。

嘗試改變了一下編號，發現"16090"編號是小說《調教初唐》，"16088"編號書籍不存在，由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1）提供小說名稱；

2）在小說網站檢索小說，提取小說對應編號；

3）下載小說；

5 代碼實現（1）

實現下說下載的代碼：

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間：" + str(round(end_time - start_time))  + "s")

非完整代碼，後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼，查看下載網址反饋的編碼格式爲ISO-8859-1，在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看：r.encoding；

8 結束語

本次代碼只是實現了根據小說下載連接對小說進行下載，代碼較簡單；在以後要完善小說的檢索代碼，即提供輸入窗口，輸入小說名稱，在網站檢索小說，提取下載連接。

將這次編碼的過程及源碼分享給你們，供你們參考。對於錯誤的地方，或有更好的建議，但願你們提出來，不勝感激！感謝做者分享-http://bjbsair.com/2020-04-07...

鄭智化-別哭，我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件，主要熟悉了Python爬蟲的基本代碼，但缺乏實用性。

我的觀點：對於小說爬取，主要有兩個方面能夠嘗試進一步優化，一是直接在可提供下載txt連接的小說網站直接爬取txt文件，可節省代碼運行時間；二是對於還在更新中的小說，不定時檢測小說更新狀態，並推送最新更新信息，可嘗試經過郵件、微信、短信等方式推送信息。

1 功能及版本說明

功能：提供小說名稱，檢索小說網站，爬取網站小說txt連接，並下載。

版本：v1.4

更新說明：

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境：Python3和PyCharm；

3 網站介紹及分析

網上搜索了一下，可實現小說txt下載的網站較多，這裏以無限小說網爲例，網址爲：https://www.555x.org/。

查看下載地址源碼，具體以下：

嘗試改變了一下編號，發現"16090"編號是小說《調教初唐》，"16088"編號書籍不存在，由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1）提供小說名稱；

2）在小說網站檢索小說，提取小說對應編號；

3）下載小說；

5 代碼實現（1）

實現下說下載的代碼：

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間：" + str(round(end_time - start_time))  + "s")

非完整代碼，後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼，查看下載網址反饋的編碼格式爲ISO-8859-1，在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看：r.encoding；

8 結束語

鄭智化-別哭，我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件，主要熟悉了Python爬蟲的基本代碼，但缺乏實用性。

1 功能及版本說明

功能：提供小說名稱，檢索小說網站，爬取網站小說txt連接，並下載。

版本：v1.4

更新說明：

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境：Python3和PyCharm；

3 網站介紹及分析

網上搜索了一下，可實現小說txt下載的網站較多，這裏以無限小說網爲例，網址爲：https://www.555x.org/。

查看下載地址源碼，具體以下：

嘗試改變了一下編號，發現"16090"編號是小說《調教初唐》，"16088"編號書籍不存在，由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1）提供小說名稱；

2）在小說網站檢索小說，提取小說對應編號；

3）下載小說；

5 代碼實現（1）

實現下說下載的代碼：

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間：" + str(round(end_time - start_time))  + "s")

非完整代碼，後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼，查看下載網址反饋的編碼格式爲ISO-8859-1，在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看：r.encoding；

8 結束語

鄭智化-別哭，我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件，主要熟悉了Python爬蟲的基本代碼，但缺乏實用性。

1 功能及版本說明

功能：提供小說名稱，檢索小說網站，爬取網站小說txt連接，並下載。

版本：v1.4

更新說明：

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境：Python3和PyCharm；

3 網站介紹及分析

網上搜索了一下，可實現小說txt下載的網站較多，這裏以無限小說網爲例，網址爲：https://www.555x.org/。

查看下載地址源碼，具體以下：

嘗試改變了一下編號，發現"16090"編號是小說《調教初唐》，"16088"編號書籍不存在，由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1）提供小說名稱；

2）在小說網站檢索小說，提取小說對應編號；

3）下載小說；

5 代碼實現（1）

實現下說下載的代碼：

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間：" + str(round(end_time - start_time))  + "s")

非完整代碼，後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼，查看下載網址反饋的編碼格式爲ISO-8859-1，在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看：r.encoding；

8 結束語

鄭智化-別哭，我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件，主要熟悉了Python爬蟲的基本代碼，但缺乏實用性。

1 功能及版本說明

功能：提供小說名稱，檢索小說網站，爬取網站小說txt連接，並下載。

版本：v1.4

更新說明：

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境：Python3和PyCharm；

3 網站介紹及分析

網上搜索了一下，可實現小說txt下載的網站較多，這裏以無限小說網爲例，網址爲：https://www.555x.org/。

查看下載地址源碼，具體以下：

嘗試改變了一下編號，發現"16090"編號是小說《調教初唐》，"16088"編號書籍不存在，由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1）提供小說名稱；

2）在小說網站檢索小說，提取小說對應編號；

3）下載小說；

5 代碼實現（1）

實現下說下載的代碼：

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間：" + str(round(end_time - start_time))  + "s")

非完整代碼，後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼，查看下載網址反饋的編碼格式爲ISO-8859-1，在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看：r.encoding；

8 結束語

鄭智化-別哭，我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件，主要熟悉了Python爬蟲的基本代碼，但缺乏實用性。

1 功能及版本說明

功能：提供小說名稱，檢索小說網站，爬取網站小說txt連接，並下載。

版本：v1.4

更新說明：

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境：Python3和PyCharm；

3 網站介紹及分析

網上搜索了一下，可實現小說txt下載的網站較多，這裏以無限小說網爲例，網址爲：https://www.555x.org/。

查看下載地址源碼，具體以下：

嘗試改變了一下編號，發現"16090"編號是小說《調教初唐》，"16088"編號書籍不存在，由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1）提供小說名稱；

2）在小說網站檢索小說，提取小說對應編號；

3）下載小說；

5 代碼實現（1）

實現下說下載的代碼：

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間：" + str(round(end_time - start_time))  + "s")

非完整代碼，後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼，查看下載網址反饋的編碼格式爲ISO-8859-1，在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看：r.encoding；

8 結束語

鄭智化-別哭，我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件，主要熟悉了Python爬蟲的基本代碼，但缺乏實用性。

1 功能及版本說明

功能：提供小說名稱，檢索小說網站，爬取網站小說txt連接，並下載。

版本：v1.4

更新說明：

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境：Python3和PyCharm；

3 網站介紹及分析

網上搜索了一下，可實現小說txt下載的網站較多，這裏以無限小說網爲例，網址爲：https://www.555x.org/。

查看下載地址源碼，具體以下：

嘗試改變了一下編號，發現"16090"編號是小說《調教初唐》，"16088"編號書籍不存在，由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1）提供小說名稱；

2）在小說網站檢索小說，提取小說對應編號；

3）下載小說；

5 代碼實現（1）

實現下說下載的代碼：

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間：" + str(round(end_time - start_time))  + "s")

非完整代碼，後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼，查看下載網址反饋的編碼格式爲ISO-8859-1，在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看：r.encoding；

8 結束語

鄭智化-別哭，我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件，主要熟悉了Python爬蟲的基本代碼，但缺乏實用性。

1 功能及版本說明

功能：提供小說名稱，檢索小說網站，爬取網站小說txt連接，並下載。

版本：v1.4

更新說明：

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境：Python3和PyCharm；

3 網站介紹及分析

網上搜索了一下，可實現小說txt下載的網站較多，這裏以無限小說網爲例，網址爲：https://www.555x.org/。

查看下載地址源碼，具體以下：

嘗試改變了一下編號，發現"16090"編號是小說《調教初唐》，"16088"編號書籍不存在，由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1）提供小說名稱；

2）在小說網站檢索小說，提取小說對應編號；

3）下載小說；

5 代碼實現（1）

實現下說下載的代碼：

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間：" + str(round(end_time - start_time))  + "s")

非完整代碼，後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼，查看下載網址反饋的編碼格式爲ISO-8859-1，在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看：r.encoding；

8 結束語

鄭智化-別哭，我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件，主要熟悉了Python爬蟲的基本代碼，但缺乏實用性。

1 功能及版本說明

功能：提供小說名稱，檢索小說網站，爬取網站小說txt連接，並下載。

版本：v1.4

更新說明：

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境：Python3和PyCharm；

3 網站介紹及分析

網上搜索了一下，可實現小說txt下載的網站較多，這裏以無限小說網爲例，網址爲：https://www.555x.org/。

查看下載地址源碼，具體以下：

嘗試改變了一下編號，發現"16090"編號是小說《調教初唐》，"16088"編號書籍不存在，由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1）提供小說名稱；

2）在小說網站檢索小說，提取小說對應編號；

3）下載小說；

5 代碼實現（1）

實現下說下載的代碼：

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間：" + str(round(end_time - start_time))  + "s")

非完整代碼，後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼，查看下載網址反饋的編碼格式爲ISO-8859-1，在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看：r.encoding；

8 結束語

鄭智化-別哭，我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件，主要熟悉了Python爬蟲的基本代碼，但缺乏實用性。

1 功能及版本說明

功能：提供小說名稱，檢索小說網站，爬取網站小說txt連接，並下載。

版本：v1.4

更新說明：

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境：Python3和PyCharm；

3 網站介紹及分析

網上搜索了一下，可實現小說txt下載的網站較多，這裏以無限小說網爲例，網址爲：https://www.555x.org/。

查看下載地址源碼，具體以下：

嘗試改變了一下編號，發現"16090"編號是小說《調教初唐》，"16088"編號書籍不存在，由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1）提供小說名稱；

2）在小說網站檢索小說，提取小說對應編號；

3）下載小說；

5 代碼實現（1）

實現下說下載的代碼：

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間：" + str(round(end_time - start_time))  + "s")

非完整代碼，後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼，查看下載網址反饋的編碼格式爲ISO-8859-1，在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看：r.encoding；

8 結束語

鄭智化-別哭，我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件，主要熟悉了Python爬蟲的基本代碼，但缺乏實用性。

1 功能及版本說明

功能：提供小說名稱，檢索小說網站，爬取網站小說txt連接，並下載。

版本：v1.4

更新說明：

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境：Python3和PyCharm；

3 網站介紹及分析

網上搜索了一下，可實現小說txt下載的網站較多，這裏以無限小說網爲例，網址爲：https://www.555x.org/。

查看下載地址源碼，具體以下：

嘗試改變了一下編號，發現"16090"編號是小說《調教初唐》，"16088"編號書籍不存在，由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1）提供小說名稱；

2）在小說網站檢索小說，提取小說對應編號；

3）下載小說；

5 代碼實現（1）

實現下說下載的代碼：

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間：" + str(round(end_time - start_time))  + "s")

非完整代碼，後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼，查看下載網址反饋的編碼格式爲ISO-8859-1，在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看：r.encoding；

8 結束語

鄭智化-別哭，我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件，主要熟悉了Python爬蟲的基本代碼，但缺乏實用性。

1 功能及版本說明

功能：提供小說名稱，檢索小說網站，爬取網站小說txt連接，並下載。

版本：v1.4

更新說明：

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境：Python3和PyCharm；

3 網站介紹及分析

網上搜索了一下，可實現小說txt下載的網站較多，這裏以無限小說網爲例，網址爲：https://www.555x.org/。

查看下載地址源碼，具體以下：

嘗試改變了一下編號，發現"16090"編號是小說《調教初唐》，"16088"編號書籍不存在，由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1）提供小說名稱；

2）在小說網站檢索小說，提取小說對應編號；

3）下載小說；

5 代碼實現（1）

實現下說下載的代碼：

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間：" + str(round(end_time - start_time))  + "s")

非完整代碼，後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼，查看下載網址反饋的編碼格式爲ISO-8859-1，在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看：r.encoding；

8 結束語

鄭智化-別哭，我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件，主要熟悉了Python爬蟲的基本代碼，但缺乏實用性。

1 功能及版本說明

功能：提供小說名稱，檢索小說網站，爬取網站小說txt連接，並下載。

版本：v1.4

更新說明：

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境：Python3和PyCharm；

3 網站介紹及分析

網上搜索了一下，可實現小說txt下載的網站較多，這裏以無限小說網爲例，網址爲：https://www.555x.org/。

查看下載地址源碼，具體以下：

嘗試改變了一下編號，發現"16090"編號是小說《調教初唐》，"16088"編號書籍不存在，由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1）提供小說名稱；

2）在小說網站檢索小說，提取小說對應編號；

3）下載小說；

5 代碼實現（1）

實現下說下載的代碼：

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間：" + str(round(end_time - start_time))  + "s")

非完整代碼，後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼，查看下載網址反饋的編碼格式爲ISO-8859-1，在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看：r.encoding；

8 結束語

鄭智化-別哭，我最愛的人.mp3

03:32.34200000000001

來自居家IT男

v1.2及以前版本主要是爬取小說單章節內容並下載到本地保存爲txt文件，主要熟悉了Python爬蟲的基本代碼，但缺乏實用性。

1 功能及版本說明

功能：提供小說名稱，檢索小說網站，爬取網站小說txt連接，並下載。

版本：v1.4

更新說明：

在可提供txt連接的小說網站進行爬取小說連接進行下載。

2 開發環境

開發環境：Python3和PyCharm；

3 網站介紹及分析

網上搜索了一下，可實現小說txt下載的網站較多，這裏以無限小說網爲例，網址爲：https://www.555x.org/。

查看下載地址源碼，具體以下：

嘗試改變了一下編號，發現"16090"編號是小說《調教初唐》，"16088"編號書籍不存在，由此能夠嘗試對全站小說嘗試進行下載。

4 編碼思路

1）提供小說名稱；

2）在小說網站檢索小說，提取小說對應編號；

3）下載小說；

5 代碼實現（1）

實現下說下載的代碼：

if __name__ == "__main__":  
    start_time = time.time()  
    r = requests.get("https://www.555x.org/home/down/txt/id/16089")  
    print(r.status_code)  
    print(r.encoding)  
    with open("a.txt","a",encoding="ISO-8859-1") as f:  
        f.write(r.text)  
    end_time = time.time()  
    print("下載時間：" + str(round(end_time - start_time))  + "s")

非完整代碼，後續其餘功能嘗試成功後會陸續更新。

6 代碼問題彙總

小說下載後保存下來的txt爲亂碼，查看下載網址反饋的編碼格式爲ISO-8859-1，在寫入本地txt時進行編碼格式定義。

7 相關學習知識點

小說網站編碼格式的查看：r.encoding；

8 結束語

將這次編碼的過程及源碼分享給你們，供你們參考。對於錯誤的地方，或有更好的建議，但願你們提出來，不勝感激！