- 原文地址:Data Science for Startups: Introduction
- 原文做者:Ben Weber
- 譯文出自:掘金翻譯計劃
- 本文永久連接:github.com/xitu/gold-m…
- 譯者:臨書
- 校對者:yqian1991
照片來源:rawpixel 發表在 pixabay.comhtml
我最近換了行業,加入了一家創業公司,負責創建數據科學部。雖然我加入時這裏已經有了可靠的數據管道,可是沒有適用於可重複分析、擴展模型和執行實驗的流程。本系列博文的目標是概述如何從頭開始爲創業公司構建數據科學平臺,並使用谷歌雲平臺(GCP)爲讀者提供能夠本身嘗試的真實示例。前端
本系列適用於但願超越訓練模型階段,以及想構建可能對公司產生影響的數據管道和數據產品的數據科學家和分析師。可是對於但願更好的瞭解如何與數據科學家合做運行實驗和構建數據產品的其餘學科來講,它也是有用的。它適用於具備編程經驗的讀者,本系列主要使用了 R 與 Java 的代碼示例。android
爲您的創業公司僱傭數據科學家時,首先要問的問題之一是:數據科學將如何改進咱們的產品?在 Windfall Data,咱們的產品就是數據,所以數據科學的目標與公司的目標能夠很好的協調,能夠創建最準確的估算淨值模型。而在其餘公司(如移動遊戲公司),答案可能沒那麼直接,數據科學可能對了解如何運營業務而不是改進產品更有用。可是在早期階段就開始收集有關客戶行爲的數據一般是有益的,這樣您就能夠在未來改進產品。ios
在初創公司啓動數據科學的好處有:git
許多公司在前兩個或三個步驟中就陷入了困境,並無充分發揮數據科學的潛力。本系列博客文章的目標是展現如何使用託管服務讓小型團隊超越僅爲計算業務運營指標而搭建數據管道,過渡到數據科學能夠爲產品提供關鍵輸入的公司。github
如下是我對此博客系列文章的主題計劃。當我寫新的部分時,我可能會添加或移動部份內容。若是您認爲應該涵蓋其餘主題,能夠在文末提出來。web
在整個系列中,我將介紹基於 Google Cloud Platform 構建的代碼示例。我選擇 GCP,由於它提供了許多託管服務,使小型團隊能夠構建數據管道,產生預測模型並利用深度學習。也能夠經過 GCP 註冊免費試用並得到 300 美圓的餘額。使用免費試用的 GCP 運行本系列中介紹的大多數主題已經夠了,但若是您的目標是深刻了解雲端的深度學習,它將很快過時。編程
對於編程語言,我將使用 R 來編寫腳本,Java 用於生產,以及使用 SQL 來處理 BigQuery 中的數據。我還會介紹其餘工具,如 Shiny。建議讀者掌握一些 R 和 Java 的使用經驗,由於我不會介紹這些語言的基礎知識。bootstrap
Ben Weber 是遊戲行業的數據科學家,在 Electronic Arts、Microsoft Studios、Daybreak Games 還有 Twitch 都有工做經驗。他仍是 FinTech 初創公司的第一位數據科學家。
若是發現譯文存在錯誤或其餘須要改進的地方,歡迎到 掘金翻譯計劃 對譯文進行修改並 PR,也可得到相應獎勵積分。文章開頭的 本文永久連接 即爲本文在 GitHub 上的 MarkDown 連接。
掘金翻譯計劃 是一個翻譯優質互聯網技術文章的社區,文章來源爲 掘金 上的英文分享文章。內容覆蓋 Android、iOS、前端、後端、區塊鏈、產品、設計、人工智能等領域,想要查看更多優質譯文請持續關注 掘金翻譯計劃、官方微博、知乎專欄。