網頁抓取

之前做聊天室時,由於在聊天室中提供了新聞閱讀的功能,寫了一個從網頁中抓取信息(如最新的頭條新聞,新聞的來源,標題,內容等)的類,本文將介紹如何使用這個類來抓取網頁中需要的信息。本文將以抓取博客園首頁的博客標題和鏈接爲例: 上圖顯示的是博客園首頁的DOM樹,顯然只需提取出class爲post_item的div,再重中提取出class爲titlelnk的a標誌即可。這樣的功能可以通過以下函數來實現:
相關文章
相關標籤/搜索