[譯] 初創公司的數據科學:簡介

照片來源:rawpixel 發表在 pixabay.comhtml

我最近換了行業,加入了一家創業公司,負責創建數據科學部。雖然我加入時這裏已經有了可靠的數據管道,可是沒有適用於可重複分析、擴展模型和執行實驗的流程。本系列博文的目標是概述如何從頭開始爲創業公司構建數據科學平臺,並使用谷歌雲平臺(GCP)爲讀者提供能夠本身嘗試的真實示例。前端

本系列適用於但願超越訓練模型階段,以及想構建可能對公司產生影響的數據管道和數據產品的數據科學家和分析師。可是對於但願更好的瞭解如何與數據科學家合做運行實驗和構建數據產品的其餘學科來講,它也是有用的。它適用於具備編程經驗的讀者,本系列主要使用了 R 與 Java 的代碼示例。android

爲何選擇數據科學?

爲您的創業公司僱傭數據科學家時,首先要問的問題之一是:數據科學將如何改進咱們的產品?在 Windfall Data,咱們的產品就是數據,所以數據科學的目標與公司的目標能夠很好的協調,能夠創建最準確的估算淨值模型。而在其餘公司(如移動遊戲公司),答案可能沒那麼直接,數據科學可能對了解如何運營業務而不是改進產品更有用。可是在早期階段就開始收集有關客戶行爲的數據一般是有益的,這樣您就能夠在未來改進產品。ios

在初創公司啓動數據科學的好處有:git

  1. 能夠肯定要跟蹤和預測的關鍵業務指標
  2. 能夠創建客戶行爲的預測模型
  3. 能夠運行實驗以測試產品變化
  4. 能夠構建支持新產品功能的數據產品

許多公司在前兩個或三個步驟中就陷入了困境,並無充分發揮數據科學的潛力。本系列博客文章的目標是展現如何使用託管服務讓小型團隊超越僅爲計算業務運營指標而搭建數據管道,過渡到數據科學能夠爲產品提供關鍵輸入的公司。github

系列概述

如下是我對此博客系列文章的主題計劃。當我寫新的部分時,我可能會添加或移動部份內容。若是您認爲應該涵蓋其餘主題,能夠在文末提出來。web

  1. 簡介(即本文):提供在初創公司使用數據科學的動力,並概述本系列文章所涵蓋的內容。相似的文章包括數據科學的功能數據科學擴展還有個人 FinTech 之旅
  2. 跟蹤數據:討論從應用程序和網頁捕獲數據的動機,提出收集跟蹤數據的不一樣方法,引入隱私和欺詐等問題,並以 Google PubSub 爲例。
  3. 數據管道:介紹如何使用不一樣方法收集數據以供分析和數據科學團隊使用,討論了平面文件、數據庫和數據池方式,並介紹了基於 PubSub,DataFlow 和 BigQuery 的實現。相似的文章有可擴展的分析管道遊戲分析平臺的演進
  4. 商業智能:認識 ETL 的常見實踐經驗、自動化報告/儀表盤以及計算業務運營指標和 KPI。使用 R Shiny 和 Data Studio 爲例。
  5. 探索性分析:涵蓋用於挖掘數據經常使用分析,好比構建直方圖和累積分佈函數、相關性分析以及線性模型的特徵重要性。使用 Natality 公共數據集進行示例分析。相似的文章有聚合前 1%數據科學可視化的 10 年
  6. 預測建模:討論監督和非監督學習方法,並介紹流失和交叉推廣預測模型,以及評估離線模型性能的方法。
  7. 模型製做:展現如何擴展離線模型以得到數百萬條記錄,並討論模型部署的批處理和在線方法。相似的文章有在 Twitch 產品化數據科學,還有使用 DataFlow 生成模型
  8. 實驗:介紹產品的 A/B 測試,討論如何配置運行實驗的框架,並提供 R 和 bootstrapping 示例分析。相似的文章有分階段的 A/B 測試
  9. 推薦系統:介紹推薦系統的基礎知識,並提供擴展生產系統推薦器的示例。相似的文章有推薦人原型設計
  10. 深度學習:簡要介紹一些問題最好經過深度學習來解決的數據科學問題,例如將聊天消息標記爲使人反感的。提供帶有 Keras 的 R 接口的原型模型示例,以及使用 CloudML 的 R 接口進行產品化。

本系列還存在網絡版印刷版的書。數據庫

工具

在整個系列中,我將介紹基於 Google Cloud Platform 構建的代碼示例。我選擇 GCP,由於它提供了許多託管服務,使小型團隊能夠構建數據管道,產生預測模型並利用深度學習。也能夠經過 GCP 註冊免費試用並得到 300 美圓的餘額。使用免費試用的 GCP 運行本系列中介紹的大多數主題已經夠了,但若是您的目標是深刻了解雲端的深度學習,它將很快過時。編程

對於編程語言,我將使用 R 來編寫腳本,Java 用於生產,以及使用 SQL 來處理 BigQuery 中的數據。我還會介紹其餘工具,如 Shiny。建議讀者掌握一些 R 和 Java 的使用經驗,由於我不會介紹這些語言的基礎知識。bootstrap


Ben Weber 是遊戲行業的數據科學家,在 Electronic Arts、Microsoft Studios、Daybreak Games 還有 Twitch 都有工做經驗。他仍是 FinTech 初創公司的第一位數據科學家。

若是發現譯文存在錯誤或其餘須要改進的地方,歡迎到 掘金翻譯計劃 對譯文進行修改並 PR,也可得到相應獎勵積分。文章開頭的 本文永久連接 即爲本文在 GitHub 上的 MarkDown 連接。


掘金翻譯計劃 是一個翻譯優質互聯網技術文章的社區,文章來源爲 掘金 上的英文分享文章。內容覆蓋 AndroidiOS前端後端區塊鏈產品設計人工智能等領域,想要查看更多優質譯文請持續關注 掘金翻譯計劃官方微博知乎專欄

相關文章
相關標籤/搜索