利用爬蟲能夠進行數據挖掘,好比能夠爬取別人的網頁,收集有用的數據進行整合和劃分,簡單的就是用程序爬取網頁上的全部圖片並保存在本身新建的文件夾內,還有能夠爬社交網站的自拍圖,將幾十萬張的圖片合在一塊兒,就知道大衆的模樣。也能夠將爬取的數據進行處理,生成一種可視化的東西。另外若是你python爬蟲沒學好,建議去小編的Python交流.裙 :一久武其而而流一思(數字的諧音)轉換下能夠找到了,裏面有最新Python教程項目,多跟裏面的大佬交流!html
二.請求網頁的過程
(注:編者用的環境爲Python3.6.1,python2.x和Python3.x在這個上有所不一樣,2.x有兩個urllib和urllib2,而3.x只有urllib)python
主要用到urllib這個庫web
請求的網頁的過程簡單的理解就是向服務器發送一個頭信息,而後返回一個信息。json
能夠查看網頁的元素看到,![](http://static.javashuo.com/static/loading.gif)
常見的所使用的方法也就是GET,POST
在過濾消息頭裏能夠看出有個參數就是User-Agent,這個就是訪問請求的環境,通常爲瀏覽器,若是用程序訪問時,爲Python3.x,這是就不容許訪問了,防止惡意訪問,但也有方法假裝瀏覽器
![3](http://static.javashuo.com/static/loading.gif)
三.簡單的爬個網頁
-
-
url=
"http://www.baidu.com"
-
response=urllib.resquest.urlopen(url)
-
-
-
url分爲三部分
①第一部分是協議(或稱爲服務方式)。
②第二部分是存有該資源的主機IP地址(有時也包括端口號)。
③第三部分是主機資源的具體地址,如目錄和文件名等。
服務器
四.一個好玩的翻譯的例子,讓你分分鐘瞭解爬蟲的好玩之處
![2](http://static.javashuo.com/static/loading.gif)
-
-
-
-
-
-
content=input(
"請輸入須要翻譯的內容:\n")
-
-
-
url=
'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=https://www.baidu.com/link'
-
-
-
-
-
data[
'xmlVersion']='1.8'
-
data[
'keyfrom']='fanyi.web'
-
-
data[
'action']='FY_BY_CLICKBUTTTON'
-
data[
'typoResult']='true'
-
-
data=urllib.parse.urlencode(data).encode(
'utf-8')
-
-
response=urllib.request.urlopen(url,data)
-
html=response.read().decode(
'utf-8')
-
-
-
print(
'翻譯結果爲:%s' % (target['translateResult'][0][0]['tgt']))
-
urllib.request.urlopen(url,data)
data爲圖中的請求數據
url爲上上圖中的請求網址