scrapyjs,scrapy js支持與瀏覽器模擬的一個解決方法-,-

https://github.com/scrapinghub/scrapyjs react

js支持與瀏覽器模擬有幾種解決方法.scrapyjs目測是scrapinghub弄出來的,該github倉庫維護者也是scrapy的貢獻者. git

scrapyjs有兩種模式,一種是經過downloadermiddleware實現的,一種是download handler.前一種會阻塞框架但不用patch scrapy,後一種不會阻塞框架但須要patch scrapy. github

特色是,他patch了scrapy的reactor,效率很高,適合於僅有get請求,須要js動態生成內容部分的爬取.
缺點是目前還不支持post,不過對webkit較熟的人應該能夠完成一個post支持. web

更詳細請見github連接. api

.爬取需求各類各樣,scrapy是一個須要定製的東西.對於具體狀況採起不一樣方法,不能完成目標時,可考慮必定程度修改scrapy.
目前在弄ghostdriver和firefox+Xvfb,看哪一個更穩定更適合一點.
瀏覽器

相關文章
相關標籤/搜索