爬蟲工程師JD概括

核心能力概括

負責:多平臺信息的抓取,清洗和分析工做html

要求:前端

  • 熟悉經常使用開源爬蟲框架,如 scrapy / pyspider

  • 瞭解基於Cookie的登陸原理,熟悉經常使用的信息抽取技術,如正則表達式、XPath
  • 熟悉常見的反爬蟲技術,有必定的對抗能力
  • 分佈式爬蟲架構經驗*

字節跳動 python爬蟲工程師 22-40k

負責:python

  • 設計和開發分佈式網絡爬蟲系統,進行多平臺信息的抓取和分析工做,實時監控爬蟲的進度和警報反饋
  • 網頁信息和APP數據抽取、清洗、消重等工做

要求:正則表達式

  • 有紮實的算法和數據結構能力
  • 熟悉爬蟲原理,熟悉常見的反爬蟲技術
  • 掌握http協議,熟悉html、dom、xpath等常見的數據抽取技術
  • 有大規模數據處理、數據挖掘、信息提取等經驗者優先

小米 數據爬蟲工程師 20-40k

負責:算法

  • 負責設計和開發分佈式網絡爬蟲系統,進行多平臺信息的抓取和分析工做
  • 負責網頁搜索的頁面內容提取,搜索領域下的濾重(simhash/minhash)、聚類、反垃圾、頁面分析、標籤、分類器(貝葉斯/Bayes/LR/SVM)、數據挖掘等工做,提高平臺的抓取效率
  • 參與爬蟲核心算法和策略優化,熟悉採集系統的調度策略
  • 實時監控爬蟲的進度和警報反饋

要求:數據庫

  • 熟悉Linux系統,掌握Python等語言
  • 掌握網頁抓取原理及技術,瞭解基於Cookie的登陸原理,熟悉基於正則表達式、XPath、CSS等網頁信息抽取技術
  • 熟悉整個爬蟲的設計及實現流程,有大規模網頁信息抽取開發經驗,熟悉各類反爬蟲技術,有分佈式爬蟲架構經驗
  • 有連接分析(pagerank、trustrank)、特徵提取(頁面質量、權威度、topic、線性/非線性迴歸、LDA)等能力優先

網易 爬蟲工程師 12-24k

負責:瀏覽器

  • 負責設計和開發通用爬蟲系統,提取分析各類千形萬態的平臺頁面內容;
  • 研究各類網站、連接的形態,發現它們的特色和規律;
  • 解決技術疑難問題,包括反反爬、壓力控制等,提高網頁抓取的效率和質量;

要求:網絡

  • 精通python、計算機網絡,熟練使用多線程,熟悉Scrapy等經常使用爬蟲框架;
  • 熟悉Linux操做、正則表達式,MySQL、MongoDB等經常使用數據庫,瞭解各類Web前端技術;
  • 可以解決封帳號、封IP、驗證碼識別、圖像識別等問題;

扇貝 爬蟲工程師 8-16k

負責:數據結構

  • 開發分佈式網絡爬蟲系統,進行多平臺信息的抓取和分析工做

  • 負責網頁信息和 App 數據抽取、消重等工做

  • 配合算法崗完成ETL 相關任務

要求:多線程

  • 掌握網頁抓取原理及技術,瞭解基於 Cookie 的登陸原理,熟悉基於正則表達式、XPath 等網頁信息抽取技術

  • 熟悉經常使用開源爬蟲框架,如 scrapy / pyspider

  • 紮實的編碼能力與算法基礎,熟悉 Linux 下的 Python / Shell 開發

高級崗位

千里馬-北京 爬蟲leader 30-40k

要求:

  • 深度參與過至少一個‘分佈式網絡爬蟲系統’的架構設計
  • 紮實的數據結構與算法功底,有迭代開發經驗
  • 精通反爬對抗,Ajex網頁抓取,瀏覽器模擬抓取、多平臺抓取等技術
  • 熟悉分佈式系統,多線程
  • 對主流爬蟲架構有深刻研究,具備成熟爬蟲工具的設計及運維經驗
相關文章
相關標籤/搜索