python抓取網頁之helloWord

時間 2020-01-24

標籤 python 抓取網頁 helloword 欄目 Python 简体版

原文原文鏈接

學習python基礎有一小段時間了,一直沒有用python作實際的應用,心理面感受空空的！因而決定開始用python的優點寫一些python的程序,把python學好！第一個python的應用,就從Python的爬蟲開始吧！html

一：python打開UR內容python

#urllib2提供了打開一個url,獲得該url全部內容等一些實現ide

import urllib2學習

content=urllib2.urlopen('http://developer.51cto.com/col/1005/').read()url

print content.net

注：經過以上方法能獲取到該url頁面下的全部內容！htm

二：python解析URLit

#urlparse 提供了URL解析的實現class

from urlparse import urlparseimport

url=urlparse('http://www.onepub.net/%E4%BD%BF%E7%94%A8urlparse%E5%AE%9E%E7%8E%B0url%E8%A7%A3%E6%9E%90.html')

print url

注意：經過打印能夠得出解析的結果：

ParseResult(scheme='http', netloc='www.onepub.net', path='/%E4%BD%BF%E7%94%A8urlparse%E5%AE%9E%E7%8E%B0url%E8%A7%A3%E6%9E%90.html', params='', query='', fragment='')

根據須要,咱們能夠從結果中獲取、重組咱們的要的內容!

注：更多python抓取網頁內容,將根據學習的深刻進而續寫......!

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。