一、掌握java、尤爲編程網絡部分;李剛的java基礎至少看了三遍以上;css
二、熟悉html、js、 ajax、firedebug
三、網頁去重、找到網站特色
四、分佈式
五、多線程
六、一種關係型數據庫mysql/oraclelserver/mybatis
七、正則表達式、css selector、 xpath
八、DNS cache
九、TCP/IP/Http協議tp2.0十、web登陸協議html
十、 SSO、OAuth原理java
十一、反爬策略
十二、熟悉httpClient、okhttp3...
1三、 熟悉一些提取工具、jsoup、selenim WebDriver...
1四、搜索技術。熟悉Lucene/Nutch/Heritrix/solr/elastic-search/
1五、熟悉XML、JSON、SOAP協議;
1六、mongodb、 redis、 hbase、 hadoop
1七、文本分析、機器學習、數據挖掘、天然語言處理[NLP]
1八、完成網頁、微博、微信、貼吧、論壇等數據信息的精準抽取
1九、RPC協議
20、netty、NIO
2一、HTMLUnit、PhantomJS、SlimerJS 、CasperJS
2二、代理部署方案:http/socks
2三、nginx、 squid、jetty
2四、破解ios
2五、驗證碼、ocr、tess4jmysql
一、Phantomjsios
二、berserkJS(基於Phantomjs的改進版本)nginx
三、SlimerJSweb
四、CasperJSajax
五、selenium正則表達式
經常使用的IDE:IntelliJ IDEA,Eclipse,Netbeansredis
Web開發相關:Tomcat、Resin、Jetty、WebLogic等,經常使用的組件Struts,Spring
HibernateNetty: 異步事件驅動網絡應用編程框架,用於高併發網絡編程比較好(NIO框架)
MINA:簡單地開發高性能和高可靠性的網絡應用程序(也是個NIO框架),很多手遊服務端是用它開發的
jOOQ:java Orm框架Activiti:工做流引擎,相似的還有jBPM、Snaker
Perfuse:是一個用戶界面包用來把有結構與無結構數據以具備交互性的可視化圖形展現出來.
Gephi:複雜網絡分析軟件, 其主要用於各類網絡和複雜系統,動態和分層圖的交互可視化與探測開源工具
Nutch:知名的爬蟲項目,hadoop就是從這個項目中發展出來的
web-harvest:Web數據提取工具
POM工具:Maven+ArtifactoryNetflix
Curator:Netflix公司開源的一個Zookeeper client library,用於簡化Zookeeper客戶端編程
Akka:一款基於actor模型實現的 併發處理框架
EclEmma:覆蓋測試工具