小白學 Python 爬蟲（26）：爲啥上海二手房你都買不起

def get_outer_list(maxNum):
    list = []
    for i in range(1, maxNum + 1):
        url = 'https://sh.lianjia.com/ershoufang/pg' + str(i)
        print('正在爬取的連接爲： %s' %url)
        response = requests.get(url, headers=headers)
        print('正在獲取第 %d 頁房源' % i)
        doc = PyQuery(response.text)
        num = 0
        for item in doc('.sellListContent li').items():
            num += 1
            list.append(item.attr('data-lj_action_housedel_id'))
        print('當前頁面房源共 %d 套' %num)
    return list

這裏先獲取房源的那個 id 編號列表，方便咱們下一步進行鏈接的拼接，這裏的傳入參數是最大頁數，只要不超過實際頁數便可，目前最大頁數是 100 頁，這裏最大也只能傳入 100 。

房源列表獲取到之後，接着就是要獲取房源的詳細信息，此次的信息量有點大，解析起來稍有費勁兒：

def get_inner_info(list):
    for i in list:
        try:
            response = requests.get('https://sh.lianjia.com/ershoufang/' + str(i) + '.html', headers=headers)
            doc = PyQuery(response.text)

            # 基本屬性解析
            base_li_item = doc('.base .content ul li').remove('.label').items()
            base_li_list = []
            for item in base_li_item:
                base_li_list.append(item.text())

            # 交易屬性解析
            transaction_li_item = doc('.transaction .content ul li').items()
            transaction_li_list = []
            for item in transaction_li_item:
                transaction_li_list.append(item.children().not_('.label').text())

            insert_data = {
                "id": i,
                "danjia": doc('.unitPriceValue').remove('i').text(),
                "zongjia": doc('.price .total').text() + '萬',
                "quyu": doc('.areaName .info').text(),
                "xiaoqu": doc('.communityName .info').text(),
                "huxing": base_li_list[0],
                "louceng": base_li_list[1],
                "jianmian": base_li_list[2],
                "jiegou": base_li_list[3],
                "taoneimianji": base_li_list[4],
                "jianzhuleixing": base_li_list[5],
                "chaoxiang": base_li_list[6],
                "jianzhujiegou": base_li_list[7],
                "zhuangxiu": base_li_list[8],
                "tihubili": base_li_list[9],
                "dianti": base_li_list[10],
                "chanquan": base_li_list[11],
                "guapaishijian": transaction_li_list[0],
                "jiaoyiquanshu": transaction_li_list[1],
                "shangcijiaoyi": transaction_li_list[2],
                "fangwuyongtu": transaction_li_list[3],
                "fangwunianxian": transaction_li_list[4],
                "chanquansuoshu": transaction_li_list[5],
                "diyaxinxi": transaction_li_list[6]
            }
            cursor.execute(sql_insert, insert_data)
            conn.commit()
            print(i, '：寫入完成')
        except:
            print(i, '：寫入異常')
            continue

兩個最關鍵的方法已經寫完了，接下來看下小編的成果：

這個價格看的小編血壓有點高。

果真仍是我大魔都，無論幾手房，價格看看就好。