學好爬蟲技術能作到哪些很酷頗有趣頗有用的事情?

一個熟悉爬蟲技術的人的獨白!正則表達式

不得不說,Python爬蟲對於我來講真是個神器。以前在分析-些經濟數據的時候,須要從網上抓取一些數據下來,想了不少方法,一開始是經過Excel,可是Excel只能爬下表格,侷限性太大了。以後問了學編程的朋友,他說JavaScrip也能實現,因而懵懵董董地就去學Java (我那朋友是學Java的,我當時問他用Java能不能實現,他說JavaScript好像能夠,當時我什麼都不懂,就把JavaScript理解成是Java下的一個分支,覺得JavaScript只是ava其中-個包什麼的,因而我便去學了一小會Java,無知惹的禍啊。。。)。編程

但整個Java體系也太龐大了 ,學起來力不從心,畢竟我只是要運用其中一部分功能而已,因而學沒多久我就放棄了。就在我迷茫的時候,我發現了Python.....
爬蟲ide

廢話說多了,說說本身的學習經歷吧。也給想學Python,想寫爬蟲的人一個參考。學習

一開始我是在網上本身找了個基礎的視頻來學,Python真是門簡單的語言,以前懂一點Visual Basic,感受Python也很適合給無編程基礎的人學習。網站

入門視頻到最後,就作出了個人第一個爬蟲一百度貼吧圖片爬蟲 (相信不少的教程都是以百度貼吧爬蟲爲經典例子來講的。)url

一開始代碼很簡單,只能爬取第一頁的數據,因而我加了一一個循環,就可以爬取制定頁數的圖片了。而且圖片是有按順序排列的,很是方便。在篩選網址的時候用正則表達式就行了。視頻

但是我不常常混貼吧啊,也不多有要下載貼吧圖片的需求。迴歸初衷吧。我對投資有興趣,學編程有一個緣由也是爲了投資服務。在7月股災進行時的時候,我錯過了一個明顯的「撿錢」的機會,並不是自身專業知識不夠,而是當時在準備考試,不多去看股市,這讓我心有不甘:要是有個東西可以幫我自動爬取數據分析並推送就行了,因而有了如下學習軌跡:xml

1、爬取數據blog

在此順便提一下,能夠到公衆號菜單欄的學習福利裏面逛逛。裏面有些教程仍是挺不錯的。兩個能夠替代Python裏urlib和re正則表達式的庫,它們分別叫作requests和Ixml。教程

第一個庫挺不錯的,如今在獲取網頁源代碼時,我都用這個庫,你們若是有不懂的能夠看看那個網站。第二個庫因爲我是用3.4版本的Python,折騰了好久沒折騰進去,因而我發現了另外一個不錯的庫BeautifulSoup,詳細教程參考: Python爬蟲入門八之Beautiful Soup的用法

有了requests和Beautifulsoup,基本上能夠實現我想要的不少功能了。我便作了一一個抓取分級基金數據的爬蟲:

2、分析並推送

其實在此分析其實還談不上,頂多算是篩選。(不過我相信隨着 我數學能力提高會能有進一步的分析的,美好的祝願。。。)篩選很簡單,就是漲幅或收益率等等知足必定條件就保留下來,保留下來幹嗎?推送啊! ! !

將保存下來的數據經過郵件發送到本身的郵箱,手機上下載個軟件,一切就大功告成了!

至此當時學習Python的目的就達到了,當時激動地要炸了! ! !

不過....那麼好玩的東西,怎麼能這麼快就結束了?再折騰吧!

3、簡單的界面

等等! Python好像不能直接弄成exe可執行文件,不能每次運行都開Python的窗口啊!強迫症怎麼能忍! 1上網搜搜發現有諸如py2exe的包能夠轉換,但是老子是3.4版本啊! 折騰半天沒搞定,算了!我不是會點VB嗎,用那個吧。因而連界面都有了

相關文章
相關標籤/搜索