【Web crawler】print_all_links

時間 2019-11-18

標籤 Web crawler print links 欄目 HTML 简体版

原文原文鏈接

How to repeat Procedures&Control

CS重要概念

1.1 過程procedures

封裝代碼，代碼重用python

1.2 控制Control

DEMO

# -*- coding: UTF-8 -*- 

# procedures過程
def get_next_target(page):
    start_link = page.find('<a href=')
    if start_link == -1:         # not found
        return None,0
    start_quote = page.find('"',start_link)
    end_quote = page.find('"',start_quote+1)
    url = page[start_quote+1:end_quote]
    return url,end_quote




# 循環
def print_all_links(page):
    while True:
        url,endpos = get_next_target(page)
        if url:
            print url
            page = page[endpos:]
        else:
            break


# 獲取網頁源代碼
def get_page(url):
    try:
        import urllib
        return urllib.urlopen(url).read()
    except:
        return ''


# print_all_links('this <a href="test1">link 1</a> is <a href="test2"link 2</a> a <a href="test3">link3</a>')
# >>>test1
# >>>test2
# >>>test3

# content =  get_page('http://xkcd.com/353/') 
# print_all_links(content)




print_all_links(get_page('http://xkcd.com/353/'))
#print_all_links(get_page('https://www.baidu.com/'))

1. pythong--web crawler
2. Python Web Crawler
3. System Design: Web Crawler
4. A Web Crawler With asyncio Coroutines
5. 學習筆記 - first web crawler
6. Web-Crawler（爬蟲基礎）
7. 【Web crawler】爬蟲之百度首頁
8. App Crawler
9. python crawler
10. ML-Agents（十）Crawler
更多相關文章...
• Web 標準 - 網站建設指南
• Web 詞彙表 - 網站建設指南
• Tomcat學習筆記（史上最全tomcat學習筆記）
• Docker容器實戰(八) - 漫談 Kubernetes 的本質

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。