#!/usr/bin/python3 #coding=UTF-8 import requests from bs4 import BeautifulSoup ''' 需求:【python小項目】抓取編程網收費vip文章的非vip用戶觀看界面的url! 例如收費文章http://c.biancheng.net/view/vip_6005.html對應非收費地址是http://c.biancheng.net/view/5315.html這個網站老是有一些vip文章 可是vip文章經過百度標題是能夠搜索到的,我想爬取全部這樣的文章標題和網頁的地址!後期看到一個vip文章,你能夠經過檢索標題獲得非vip的觀看連接地址 編寫日期:2019-10-18 做者:xiaoxiaohui 說明:python3程序 並且最好在linux運行 windows下有gbk那個編碼問題 ''' def get_biaoti(url): response = requests.get(url) response.encoding='utf-8' #若是不設置成utf8則中文亂碼或者報錯 參考https://www.cnblogs.com/supery007/p/8303472.html soup = BeautifulSoup(response.text,'html.parser') links_div = soup.find_all('h1') return links_div[0].text f = open("a1.txt", 'a') for yema in range(1,500): url = 'http://c.biancheng.net/view/'+str(yema)+'.html' biaoti = get_biaoti(url) print(url,biaoti) f.write(url+'\t'+biaoti+'\n') f.close()
上面就是切換到富文本編輯器以後---->再先選語言----->再貼代碼纔是縮進正常html