思路::html
(本文沒有用xpath定位,xpath須要導入第三方庫 from lxml import etree)前端
1.首先經過urllib類獲取到網頁的全部內容git
2.經過partition獲取其中的部份內容程序員
3.在經過指定內容放到放到一個list中1!github
代碼以下:數據庫
#encoding: utf-8 import urllib, os # 獲取網頁內容 def getContent(urlAddr): page = urllib.urlopen(urlAddr) html = page.read() return html # 獲取指定內容 def content(html): str = r'<div id="post_list">' content = html.partition(str)[2] str1 = r'<script>' content = content.partition(str1)[0] # 爬取內容太存到list中 def getTitleName(content, beg = 0): try: title_list = [] while True: num1 = content.index('target="_blank">', beg)+16 num2 = content.index('</a>', num1) title_list.append(content[num1:num2]) beg = num2 except ValueError: return title_list SourceUrl = "http://www.cnblogs.com/pick/" contentTotal = getContent(SourceUrl) specilContent = content(contentTotal) for i in range (1, 40): print "%d標題是:%s" % (i, getTitleName(contentTotal)[i])
顯示效果爲:編程
1標題是:架構之路(五):忘記數據庫 2標題是:.NET基礎拾遺(5)多線程開發基礎 3標題是:你爲何不分享 4標題是:架構之路(三) 單元測試 5標題是:從中間件的歷史來看移動App開發的將來 6標題是:架構之路(二):性能 7標題是:每一個人都應該懂點函數式編程 8標題是:程序員讀書這件事情 9標題是:前端代碼異常日誌收集與監控 10標題是:iOS開發系列--Swift語言 11標題是:設計-簡約而不簡單 12標題是:Entity Framework教程(第二版) 13標題是:搞個這樣的APP要多久? 14標題是:REST簡介 15標題是:探索C#之6.0語法糖剖析 16標題是:CLR 這些年有啥變化嗎? 17標題是:理想的應用框架 18標題是:Web性能優化:What? Why? How? 19標題是:CSS十問——好奇心+刨根問底=CSSer 20標題是:不免的尷尬:代碼依賴 21標題是:反饋或建議 22標題是:官方博客 23標題是:博客模板 24標題是:.NET招聘 25標題是:Java招聘 26標題是:C++招聘 27標題是:PHP招聘 28標題是:Web前端招聘 29標題是:<img src="http://img.cnblogs.com/friend_links/logo_aliyun.jpg" alt="阿里雲" /> 30標題是:滬江網 31標題是:站長之家 32標題是:天極網 33標題是:A5源碼下載 34標題是:葡萄城控件 35標題是:又拍雲存儲 36標題是:高考查分 37標題是:聽雲APP 38標題是:融雲IM雲 39標題是:極光推送 [Finished in 0.7s]
github地址爲:性能優化