基於python的crawler

考慮到垂直爬蟲及站內搜索的重要性,重新思考一下項目爬蟲的技術架構及實現方案。以前的垂直爬蟲曾經使用過heritrix、htmlparser、nutch等,各有優缺點。尤其是要做垂直網站的定向爬取時候,並沒有太好的方案,只能夠做指定頁面的定向解析,因此以前主要還是使用htmlparser的方案。     考察垂直爬蟲的幾個原則: 性能較高:較好支持多線程併發處理;支持異步、非阻塞socket;支持分
相關文章
相關標籤/搜索