爬蟲工程師JD概括

時間 2019-11-14

標籤爬蟲工程師概括欄目網絡爬蟲简体版

原文原文鏈接

核心能力概括

負責：多平臺信息的抓取，清洗和分析工做html

要求：前端

熟悉經常使用開源爬蟲框架，如 scrapy / pyspider 
瞭解基於Cookie的登陸原理，熟悉經常使用的信息抽取技術，如正則表達式、XPath
熟悉常見的反爬蟲技術，有必定的對抗能力
分佈式爬蟲架構經驗*

字節跳動 python爬蟲工程師 22-40k

負責：python

設計和開發分佈式網絡爬蟲系統，進行多平臺信息的抓取和分析工做，實時監控爬蟲的進度和警報反饋
網頁信息和APP數據抽取、清洗、消重等工做

要求：正則表達式

有紮實的算法和數據結構能力
熟悉爬蟲原理，熟悉常見的反爬蟲技術
掌握http協議，熟悉html、dom、xpath等常見的數據抽取技術
有大規模數據處理、數據挖掘、信息提取等經驗者優先

小米數據爬蟲工程師 20-40k

負責：算法

負責設計和開發分佈式網絡爬蟲系統，進行多平臺信息的抓取和分析工做
負責網頁搜索的頁面內容提取，搜索領域下的濾重（simhash/minhash）、聚類、反垃圾、頁面分析、標籤、分類器（貝葉斯/Bayes/LR/SVM）、數據挖掘等工做，提高平臺的抓取效率
參與爬蟲核心算法和策略優化，熟悉採集系統的調度策略
實時監控爬蟲的進度和警報反饋

要求：數據庫

熟悉Linux系統，掌握Python等語言
掌握網頁抓取原理及技術，瞭解基於Cookie的登陸原理，熟悉基於正則表達式、XPath、CSS等網頁信息抽取技術
熟悉整個爬蟲的設計及實現流程，有大規模網頁信息抽取開發經驗，熟悉各類反爬蟲技術，有分佈式爬蟲架構經驗
有連接分析（pagerank、trustrank）、特徵提取（頁面質量、權威度、topic、線性/非線性迴歸、LDA）等能力優先

網易爬蟲工程師 12-24k

負責：瀏覽器

負責設計和開發通用爬蟲系統，提取分析各類千形萬態的平臺頁面內容；
研究各類網站、連接的形態，發現它們的特色和規律；
解決技術疑難問題，包括反反爬、壓力控制等，提高網頁抓取的效率和質量；

要求：網絡

精通python、計算機網絡，熟練使用多線程，熟悉Scrapy等經常使用爬蟲框架；
熟悉Linux操做、正則表達式，MySQL、MongoDB等經常使用數據庫，瞭解各類Web前端技術；
可以解決封帳號、封IP、驗證碼識別、圖像識別等問題；

扇貝爬蟲工程師 8-16k

負責：數據結構

開發分佈式網絡爬蟲系統，進行多平臺信息的抓取和分析工做 
負責網頁信息和 App 數據抽取、消重等工做 
配合算法崗完成ETL 相關任務

要求：多線程

掌握網頁抓取原理及技術，瞭解基於 Cookie 的登陸原理，熟悉基於正則表達式、XPath 等網頁信息抽取技術 
熟悉經常使用開源爬蟲框架，如 scrapy / pyspider 
紮實的編碼能力與算法基礎，熟悉 Linux 下的 Python / Shell 開發

高級崗位

千里馬-北京爬蟲leader 30-40k

要求：

深度參與過至少一個‘分佈式網絡爬蟲系統’的架構設計
紮實的數據結構與算法功底，有迭代開發經驗
精通反爬對抗，Ajex網頁抓取，瀏覽器模擬抓取、多平臺抓取等技術
熟悉分佈式系統，多線程
對主流爬蟲架構有深刻研究，具備成熟爬蟲工具的設計及運維經驗

相關文章

相關標籤/搜索

爬蟲－反爬蟲

Thymeleaf 教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<