1,java
2,熟悉js, ajax
3,網頁去重,找到網站特色
4,分佈式
5,多線程
6,一種關係型數據庫mysql/oraclelserver
7,正則表達式、css selector, xpath
8,DNS cache
9,TCP/IP/Http協議tp2.010,web登陸協議css
10, SSO,OAuth原理java
11,反爬策略
12,熟悉httpClient
13, 熟悉一些提取工具
14,搜索技術。熟悉Lucene/Nutch/Heritrix/solr/elastic-search/
15,熟悉XML、JSON、SOAP協議;
16,mongodb, redis, hbase, hadoop
17,文本分析,機器學習、數據挖掘、天然語言處理
18,完成網頁,微博,微信,貼吧,論壇等數據信息的精準抽取
19,RPC協議
20,netty,NIO
21,HTMLUnit,PhantomJS,SlimerJS ,CasperJS
22,代理部署方案:http/socks
23,nginx, squid,jetty
24,破解ios
25,驗證碼,ocrmysql
掌握一半即是熟練的爬蟲開發了,所有掌握的人,還沒遇到過。ios
交流羣:177655321nginx
歡迎高手入羣
web