【不單單是爬蟲還有數據分析】從零開始學Python網絡爬蟲

時間 2020-08-30

標籤不單單是爬蟲還有數據分析開始 python 網絡爬蟲欄目 Python 简体版

原文原文鏈接

點擊獲取書籍提取碼：oqpq

內容簡介—
Python是數據分析的首選語言，而網絡中的數據和信息不少，如何從中獲取須要的數據和信息呢?最簡單、直接的方法就是用爬蟲技術來解決。

本書是一本教初學者學習如何爬取網絡數據和信息的入門讀物。書中不只有Python的相關內容，並且還有數據處理和數據挖掘等方面的內容。本書內容很是實用，講解時穿播了22個爬蟲實戰案例，能夠大大提升讀者的實際動手能力。

本書共分12章，核心主題包括Python零基礎語法入門、爬蟲原理和網頁構造、第一個爬蟲程序、正則表達式、Lxml庫與×path語法、使用API、數據庫存儲、多進程爬蟲、異步加載、表單交互與模擬登陸、Selenium模擬瀏覽器、Scrapy爬蟲框架。此外，書中經過一些典型爬蟲案例，講解了有經緯信息的地圖圖表和詞雲的製做方法，讓讀者體驗數據背後的樂趣。

本書適合爬蟲技術初學者、愛好者及高等院校的相關學生，也適合數據爬蟲工程師做爲參考讀物，同時也適合各大Python數據分析的培訓機構做爲教材使用。

前言

隨着Internet的飛速發展，互聯網中天天都會產生大量的非結構化數據。如何從這些非結構化數據中提取有效信息，供人們在學習和工做中使用呢?這個問題促使網絡爬蟲技術應運而生。因爲Python語言簡單易用，並且還提供了優秀易用的第三方庫和多樣的爬蟲框架，因此使得它成爲了網絡爬蟲技術的主力軍。近年來，大數據技術發展迅速，數據爬取做爲數據分析的一環也顯得尤其重要。程序員要進入與數據處理、分析和挖掘等相關的行業，就必需要掌握Python語言及其網絡爬蟲的運用，這樣才能在就業嚴峻的市場環境中有較強的職場競爭力和較好的職業前景。
目前，圖書市場上僅有的幾本Python網絡爬蟲類圖書，要麼是國外優秀圖書，但書籍翻譯隱晦，閱讀難度大，並且每每因爲網絡緣由，使得書中的案例不能正常使用，所以不適合初學者;要麼是國內資料，但質量良莠不齊，並且不成系統，一樣不適合初學者。整個圖書市場上還鮮見一本適合初學者閱讀的Python網絡爬蟲類圖書。本書即是基於這個緣由而編寫。本書從 Python語言基礎講起，而後深刻淺出地介紹了爬蟲原理、各類爬蟲技術及22個爬蟲實戰案例。本書所有選用國內網站做爲爬蟲案例，便於讀者理解和實現，同時也能夠大大提升讀者對Python網絡爬蟲項目的實戰能力。

程序員