《爬蟲、數據清洗與可視化實戰》零一 等

@若是隻是作統計和機器學習,下載anacondahtml

@若是robots.txt最後是web

User Agent:* Disallow:/

表示文本中前面部分的爬蟲之外,不容許爬取。chrome

@網頁查看json

源代碼:ctrl+uapi

若是查看網頁返回數據裏面的url帶有callback,用requests分析的時候url去掉這個參數%E9%9D%92%E5%B2%9B瀏覽器

@連接裏面可能經過某種編譯方法把漢字變爲特殊字符串,以下???網絡

https://touch.dujia.qunar.com/list?modules=mobFunction,configDepNew,extendFunction&dep=%E9%9D%92%E5%B2%9B&query=%E6%88%90%E9%83%BD%E8%87%AA%E7%94%B1%E8%A1%8C&originalquery=%E6%88%90%E9%83%BD%E8%87%AA%E7%94%B1%E8%A1%8C&ddf=true&needQStar=trueapp

@去哪兒網城市列表機器學習

import requests #在network裏面的name裏多找找網頁相應的內容,經過內容找應該請求的url
url='https://touch.dujia.qunar.com/depCities.qunar' r=requests.get(url) a=r.json() print(a) print('=====') #作不重複的城市名字列表
city_list=[] for i in a['data'].items(): for m in i[1]: print(m) if m not in city_list: city_list.append(m) print(city_list)

 

 

@@@《網絡爬蟲》唐鬆異步

@修改請求頭,可是那些項是必須的呢?

‘user-agent’

‘host’

@解析動態網頁:審覈元素找到真正目標連接和selenium

@AJAX:異步JavaScript和xml

@#在network裏面的name裏多找找網頁相應的內容,經過內容找應該請求的url,再用json提取,可是url很差找。

@selenium使用

1.配置瀏覽器驅動(網絡資料)

 

http://chromedriver.storage.googleapis.com/index.html網址中下載與本機chrome瀏覽器對應的驅動程序,驅動程序名爲chromedriver。版本須要和本機的chrome瀏覽器對應,才能正常使用。下載後把文件解壓,而後放到本機chrome瀏覽器文件路徑裏。能夠出發瀏覽器打開網頁了:

from selenium import webdriver chromedriver_address=r'C:\Users\sunlu\AppData\Local\Google\Chrome\Application\chromedriver.exe' driver=webdriver.Chrome(chromedriver_address) driver.get('https://www.cnblogs.com/senlinmu/p/9586136.html')

2.

相關文章
相關標籤/搜索