@若是隻是作統計和機器學習,下載anacondahtml
@若是robots.txt最後是web
User Agent:* Disallow:/
表示文本中前面部分的爬蟲之外,不容許爬取。chrome
@網頁查看json
源代碼:ctrl+uapi
若是查看網頁返回數據裏面的url帶有callback,用requests分析的時候url去掉這個參數%E9%9D%92%E5%B2%9B瀏覽器
@連接裏面可能經過某種編譯方法把漢字變爲特殊字符串,以下???網絡
https://touch.dujia.qunar.com/list?modules=mobFunction,configDepNew,extendFunction&dep=%E9%9D%92%E5%B2%9B&query=%E6%88%90%E9%83%BD%E8%87%AA%E7%94%B1%E8%A1%8C&originalquery=%E6%88%90%E9%83%BD%E8%87%AA%E7%94%B1%E8%A1%8C&ddf=true&needQStar=trueapp
@去哪兒網城市列表機器學習
import requests #在network裏面的name裏多找找網頁相應的內容,經過內容找應該請求的url url='https://touch.dujia.qunar.com/depCities.qunar' r=requests.get(url) a=r.json() print(a) print('=====') #作不重複的城市名字列表 city_list=[] for i in a['data'].items(): for m in i[1]: print(m) if m not in city_list: city_list.append(m) print(city_list)
@@@《網絡爬蟲》唐鬆異步
@修改請求頭,可是那些項是必須的呢?
‘user-agent’
‘host’
@解析動態網頁:審覈元素找到真正目標連接和selenium
@AJAX:異步JavaScript和xml
@#在network裏面的name裏多找找網頁相應的內容,經過內容找應該請求的url,再用json提取,可是url很差找。
@selenium使用
1.配置瀏覽器驅動(網絡資料)
從http://chromedriver.storage.googleapis.com/index.html網址中下載與本機chrome瀏覽器對應的驅動程序,驅動程序名爲chromedriver。版本須要和本機的chrome瀏覽器對應,才能正常使用。下載後把文件解壓,而後放到本機chrome瀏覽器文件路徑裏。能夠出發瀏覽器打開網頁了:
from selenium import webdriver chromedriver_address=r'C:\Users\sunlu\AppData\Local\Google\Chrome\Application\chromedriver.exe' driver=webdriver.Chrome(chromedriver_address) driver.get('https://www.cnblogs.com/senlinmu/p/9586136.html')
2.