使用beautifulsoup和pyquery爬小說

時間 2019-12-08

標籤使用 beautifulsoup pyquery 简体版

原文原文鏈接

# -*- coding:UTF-8 -*-
from bs4 import BeautifulSoup    #BeautifulSoup就是處理字符串的工具
import requests, sys

"""
類說明:下載《筆趣看》網小說《一念永恆》
Parameters:
    無
Returns:
    無
Modify:
    2017-09-13
代碼出處
    https://zhuanlan.zhihu.com/p/29809609 
"""
class downloader(object):

    def __init__(self):
        self.server = 'http://www.biqukan.com/'
        self.target = 'http://www.biqukan.com/1_1094/'
        self.names = []            #存放章節名
        self.urls = []            #存放章節連接
        self.nums = 0            #章節數

    """
    函數說明:獲取下載連接
    Parameters:
        無
    Returns:
        無
    Modify:
        2017-09-13
    """
    def get_download_url(self):
        req = requests.get(url = self.target)
        html = req.text
        div_bf = BeautifulSoup(html)
        div = div_bf.find_all('div', class_ = 'listmain')
        a_bf = BeautifulSoup(str(div[0]))
        a = a_bf.find_all('a')
        self.nums = len(a[15:])                                #剔除沒必要要的章節，並統計章節數
        for each in a[15:]:
            self.names.append(each.string)
            self.urls.append(self.server + each.get('href'))

    """
    函數說明:獲取章節內容
    Parameters:
        target - 下載鏈接(string)
    Returns:
        texts - 章節內容(string)
    Modify:
        2017-09-13
    """
    def get_contents(self, target):
        req = requests.get(url = target)
        html = req.text
        bf = BeautifulSoup(html)
        texts = bf.find_all('div', class_ = 'showtxt')
        texts = texts[0].text.replace('\xa0'*8,'\n\n')  # .text去掉非文字的符號,是bs4的標籤屬性 .text屬性包含了標籤內的子標籤的內容
        return texts

    """
    函數說明:將爬取的文章內容寫入文件
    Parameters:
        name - 章節名稱(string)
        path - 當前路徑下,小說保存名稱(string)
        text - 章節內容(string)
    Returns:
        無
    Modify:
        2017-09-13
    """
    def writer(self, name, path, text):
        write_flag = True
        with open(path, 'a', encoding='utf-8') as f:
            f.write(name + '\n')
            f.writelines(text) #file.writelines(sequence)的參數是序列，好比列表，它會迭代幫你寫入文件。
            f.write('\n\n')  #file.write(str)的參數是一個字符串，就是你要寫入文件的內容

if __name__ == "__main__":
    dl = downloader()
    dl.get_download_url()
    print('《一年永恆》開始下載：')
    for i in range(dl.nums):
        dl.writer(dl.names[i], '一念永恆.txt', dl.get_contents(dl.urls[i]))
        sys.stdout.write("  已下載:%.3f%%" %  float(i/dl.nums) + '\r')    #其中%.3f表示精確到3位， 後面的2個%表示字符」%「，在3位小數後面會顯示出來一個%   '\r'表示換行符
        sys.stdout.flush()    #刷新stdout緩存，這樣會實時的顯示輸出。https://zhidao.baidu.com/question/575650032.html
    print('《一年永恆》下載完成')

2. 用pquery改寫代碼以下，增長了能夠定量下載小說的功能，而且在動態輸出進程改寫爲相似 50%的格式，而不是0.50 %，html

# 爬取筆趣閣小說
# encoding: utf-8
from pyquery import PyQuery as pq
import sys

class downloader():


    def __init__(self):
        self.base_server = 'http://www.biqukan.com'
        self.base_url = 'http://www.biqukan.com/1_1094/'
        self.url_list = []
        self.full_urls = []
        self.nums = 0
        self.wanted_pages_num = 0


    def get_url(self): 
        doc = pq(self.base_url)
        target_a = doc('dd a').items()
        for each_a in target_a:
            each_url = each_a.attr.href
            self.url_list.append(each_url)
        self.nums= len(self.url_list)
        for each in self.url_list[15:]:
            each_full_url = self.base_server + each
            self.full_urls.append(each_full_url)



    def get_content(self,target):
        content = pq(target)
        text = content('#content').text()
        head = content('h1').text()
        full_text = (head+'\n'*2+text)
        return full_text



    
    def writer(self,path,text):
        with open(path, 'a') as f:
            f.write(text+'\n')



    def choose_page(self):
        begin = input('please input your starting page: ')
        end = input('please input your ending page: ')
        self.wanted_pages_num = int(end)-int(begin)
        return self.wanted_pages_num
        




if __name__ == "__main__":
    dl = downloader()
    dl.get_url()
    print("總章節數: ", dl.nums)

    number = dl.choose_page()
    for i in range(number1):
        each_url = dl.full_urls[i]
        each_text = dl.get_content(each_url)
        dl.writer('321.txt',each_text)
        

        x = (i / number * 100)
        sys.stdout.write("已下載:%.2f %% " % x + '\r')
        sys.stdout.flush()

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。