python 學習爬蟲教程~

思路::html

(本文沒有用xpath定位,xpath須要導入第三方庫   from lxml import etree)前端

1.首先經過urllib類獲取到網頁的全部內容git

2.經過partition獲取其中的部份內容程序員

3.在經過指定內容放到放到一個list中1!github

代碼以下:數據庫

#encoding: utf-8
import urllib, os

# 獲取網頁內容
def getContent(urlAddr):
    page = urllib.urlopen(urlAddr)
    html = page.read()
    return html
# 獲取指定內容
def content(html):
    str = r'<div id="post_list">'
    content = html.partition(str)[2]
    str1 = r'<script>'
    content = content.partition(str1)[0]

# 爬取內容太存到list中
def getTitleName(content, beg = 0):
    try:
        title_list = []
        while True:
            num1 = content.index('target="_blank">', beg)+16
            num2 = content.index('</a>', num1)
            title_list.append(content[num1:num2])
            beg = num2
    except ValueError:
        return title_list


SourceUrl = "http://www.cnblogs.com/pick/"
contentTotal = getContent(SourceUrl)
specilContent = content(contentTotal)

for i in range (1, 40):
    print "%d標題是:%s" % (i, getTitleName(contentTotal)[i])

顯示效果爲:編程

1標題是:架構之路(五):忘記數據庫
2標題是:.NET基礎拾遺(5)多線程開發基礎
3標題是:你爲何不分享
4標題是:架構之路(三) 單元測試
5標題是:從中間件的歷史來看移動App開發的將來
6標題是:架構之路(二):性能
7標題是:每一個人都應該懂點函數式編程
8標題是:程序員讀書這件事情
9標題是:前端代碼異常日誌收集與監控
10標題是:iOS開發系列--Swift語言
11標題是:設計-簡約而不簡單
12標題是:Entity Framework教程(第二版)
13標題是:搞個這樣的APP要多久?
14標題是:REST簡介
15標題是:探索C#之6.0語法糖剖析
16標題是:CLR 這些年有啥變化嗎?
17標題是:理想的應用框架
18標題是:Web性能優化:What? Why? How?
19標題是:CSS十問——好奇心+刨根問底=CSSer
20標題是:不免的尷尬:代碼依賴
21標題是:反饋或建議
22標題是:官方博客
23標題是:博客模板
24標題是:.NET招聘
25標題是:Java招聘
26標題是:C++招聘
27標題是:PHP招聘
28標題是:Web前端招聘
29標題是:<img src="http://img.cnblogs.com/friend_links/logo_aliyun.jpg" alt="阿里雲" />
30標題是:滬江網
31標題是:站長之家
32標題是:天極網
33標題是:A5源碼下載
34標題是:葡萄城控件
35標題是:又拍雲存儲
36標題是:高考查分
37標題是:聽雲APP
38標題是:融雲IM雲
39標題是:極光推送
[Finished in 0.7s]

 

github地址爲:性能優化

相關文章
相關標籤/搜索