python抓取網頁之helloWord

 學習python基礎有一小段時間了,一直沒有用python作實際的應用,心理面感受空空的!因而決定開始用python的優點寫一些python的程序,把python學好!第一個python的應用,就從Python的爬蟲開始吧!html

一:python打開UR內容python

#urllib2提供了打開一個url,獲得該url全部內容等一些實現ide

import urllib2學習

content=urllib2.urlopen('http://developer.51cto.com/col/1005/').read()url

print content.net

注:經過以上方法能獲取到該url頁面下的全部內容!htm

二:python解析URLit

#urlparse 提供了URL解析的實現class

from urlparse import urlparseimport

url=urlparse('http://www.onepub.net/%E4%BD%BF%E7%94%A8urlparse%E5%AE%9E%E7%8E%B0url%E8%A7%A3%E6%9E%90.html')

print url

注意:經過打印能夠得出解析的結果:

ParseResult(scheme='http', netloc='www.onepub.net', path='/%E4%BD%BF%E7%94%A8urlparse%E5%AE%9E%E7%8E%B0url%E8%A7%A3%E6%9E%90.html', params='', query='', fragment='')

根據須要,咱們能夠從結果中獲取、重組咱們的要的內容!

注:更多python抓取網頁內容,將根據學習的深刻進而續寫......!

相關文章
相關標籤/搜索