爬蟲工程師JD概括
核心能力概括
負責:多平臺信息的抓取,清洗和分析工做html
要求:前端
- 熟悉經常使用開源爬蟲框架,如 scrapy / pyspider
- 瞭解基於Cookie的登陸原理,熟悉經常使用的信息抽取技術,如正則表達式、XPath
- 熟悉常見的反爬蟲技術,有必定的對抗能力
- 分佈式爬蟲架構經驗*
字節跳動 python爬蟲工程師 22-40k
負責:python
- 設計和開發分佈式網絡爬蟲系統,進行多平臺信息的抓取和分析工做,實時監控爬蟲的進度和警報反饋
- 網頁信息和APP數據抽取、清洗、消重等工做
要求:正則表達式
- 有紮實的算法和數據結構能力
- 熟悉爬蟲原理,熟悉常見的反爬蟲技術
- 掌握http協議,熟悉html、dom、xpath等常見的數據抽取技術
- 有大規模數據處理、數據挖掘、信息提取等經驗者優先
小米 數據爬蟲工程師 20-40k
負責:算法
- 負責設計和開發分佈式網絡爬蟲系統,進行多平臺信息的抓取和分析工做
- 負責網頁搜索的頁面內容提取,搜索領域下的濾重(simhash/minhash)、聚類、反垃圾、頁面分析、標籤、分類器(貝葉斯/Bayes/LR/SVM)、數據挖掘等工做,提高平臺的抓取效率
- 參與爬蟲核心算法和策略優化,熟悉採集系統的調度策略
- 實時監控爬蟲的進度和警報反饋
要求:數據庫
- 熟悉Linux系統,掌握Python等語言
- 掌握網頁抓取原理及技術,瞭解基於Cookie的登陸原理,熟悉基於正則表達式、XPath、CSS等網頁信息抽取技術
- 熟悉整個爬蟲的設計及實現流程,有大規模網頁信息抽取開發經驗,熟悉各類反爬蟲技術,有分佈式爬蟲架構經驗
- 有連接分析(pagerank、trustrank)、特徵提取(頁面質量、權威度、topic、線性/非線性迴歸、LDA)等能力優先
網易 爬蟲工程師 12-24k
負責:瀏覽器
- 負責設計和開發通用爬蟲系統,提取分析各類千形萬態的平臺頁面內容;
- 研究各類網站、連接的形態,發現它們的特色和規律;
- 解決技術疑難問題,包括反反爬、壓力控制等,提高網頁抓取的效率和質量;
要求:網絡
- 精通python、計算機網絡,熟練使用多線程,熟悉Scrapy等經常使用爬蟲框架;
- 熟悉Linux操做、正則表達式,MySQL、MongoDB等經常使用數據庫,瞭解各類Web前端技術;
- 可以解決封帳號、封IP、驗證碼識別、圖像識別等問題;
扇貝 爬蟲工程師 8-16k
負責:數據結構
- 開發分佈式網絡爬蟲系統,進行多平臺信息的抓取和分析工做
- 負責網頁信息和 App 數據抽取、消重等工做
- 配合算法崗完成ETL 相關任務
要求:多線程
- 掌握網頁抓取原理及技術,瞭解基於 Cookie 的登陸原理,熟悉基於正則表達式、XPath 等網頁信息抽取技術
- 熟悉經常使用開源爬蟲框架,如 scrapy / pyspider
- 紮實的編碼能力與算法基礎,熟悉 Linux 下的 Python / Shell 開發
高級崗位
千里馬-北京 爬蟲leader 30-40k
要求:
- 深度參與過至少一個‘分佈式網絡爬蟲系統’的架構設計
- 紮實的數據結構與算法功底,有迭代開發經驗
- 精通反爬對抗,Ajex網頁抓取,瀏覽器模擬抓取、多平臺抓取等技術
- 熟悉分佈式系統,多線程
- 對主流爬蟲架構有深刻研究,具備成熟爬蟲工具的設計及運維經驗
歡迎關注本站公眾號,獲取更多信息