數據科學家是作啥的?看看Stack Overflow這位大牛兩年的經歷就清楚了

數據科學家是作啥的?看看Stack Overflow這位大牛兩年的經歷就清楚了




翻譯 | AI科技大本營(rgznai100)
web

參與 | 波波算法


有個數據科學家經常調侃本身:既不如統計學家懂統計,又不如軟件工程師懂軟件……


可他一旦出手,卻總能手到擒來、絕不含糊,好比分析川普競選期間使用Twitter的規律:


(話說讀完川普的1390條推文,你能看出點啥?)




數據科學家看出來的是,老川普在用安卓機(真土豪應該不用賣腎來買蘋果),同時還不愛發圖片(究竟是老年人),較爲和藹的推文都是下屬用iPhone發的(終究是擔憂被炒魷魚)。sql


由於在川普這1390條推文中,有762條來自安卓機,628條來自iPhone,安卓機所發的負面語氣(討厭、悲哀等)要比iPhone高出80%,二者明顯不是同一我的。數據庫


作這個分析的數據科學家就是David Robinson,他最近剛剛寫過本身在Stack Overflow的第二個年度總結,他以爲全年的付出很是值得。


固然,他的主業不是盯川普,而是從Stack Overflow的數據鳥瞰整個軟件開發生態,從數以百萬計的用戶、問答和日訪問量中分析出結論。編程


對初學者來講,光是看看那些被同時使用的「標籤」,就能發現技術的自然集羣,從而自動把框架和軟件包分類到它們所屬的上一層級語言和集羣中,徹底不用手工註釋。




不過,C#和SQL Server可能並不老是同時出如今同一個問答裏,但它們每每會被用於同一技術堆棧的某個部分。有鑑於此,就須要參考一下Stack Overflow Careers的職業數據,看看哪些技術會被同一批開發者所用。vim




此外,Stack Exchange旗下還有各類不一樣主題的問答站,觀察哪些社區傾向擁有同類活躍的用戶,就能夠創建起網站內部相互關聯的網絡。
安全




這樣的數據分析,有時候真的能直接影響產品的功能。


舉例來講,在數量上掌握技術集羣,能讓咱們改進開發者類型的模型,而這個模型會驅動Providence的目標(把用戶和他們感興趣的工做機會匹配到一塊兒)。從商業的角度來講,幫助銷售部、市場部以及社區團隊解讀數據,提供不一樣角度的洞見,對於作決策是很是有價值的。微信


以上這些實例,就是數據科學家要作的典型工做。但還算不上David Robinson的平常工做項目,他成天都在忙的事情還有:網絡


  • 設計、開發和測試機器學習功能


在Stack Overflow,若是你瀏覽的大部分問題都跟Python、JavaScript有關,你將會收到Python網絡開發工做的廣告。這是由於他們的Providence機器學習系統會主動把用戶跟他們感興趣的工做機匹配到一塊兒。一


David Robinson在數據團隊的目的,就是設計、改進和執行這些機器學習算法。好比,努力平衡工做機會的地理位置和用戶在技術上的匹配度,確保用戶能看到多樣化的工做機會,而不是反覆顯示一樣的職位。


這項工做主要包括設計和分析A/B測試,尤爲是優化目標算法、廣告設計與其餘能促進點擊率(CTR)的因素。這在統計學習上其樂無窮,有些狀況你能發現學生時代的實驗方法的新用法,有些狀況你要積極去學新的統計方法。


  • 開發數據科學框架並教授R語言


David Robinson是Stack Overflow第一個用R語言的人,R語言是一個很棒的工具,能夠直接處理數據並回答有趣問題。框架


爲了讓其餘工程師也能像他同樣輕鬆地用R語言來學習數據中有趣的東西,David Robinson開始像AirBnb那樣來開發R語言的內部數據包,構建可靠的工具和框架而非「一次性」的分析腳本,讓人們各類各樣的問題上都用得上。它們可以查詢數據庫,並從句法上分析內部的API,包括向用戶隱藏各類安全和基礎設施方面的問題。


這就牽涉到了創建一門R語言輔導課和撰寫「入門」的材料。爲此,David Robinson開過一門公開教程,介紹查詢數據庫的內部sqlstackr包。它後來延伸成一個整體的dplyr/tidyr/ggplot2介紹,David Robinson認爲這比鏈接開發者與dplyr的普通教程更有用,由於那畢竟是他同事更爲關心的東西。


David Robinson的想法是,隨着數據團隊的成長,以及更多工程師掌握了R語言,這些數據包和內部指南最終成長爲一個真正的內部數據科學平臺。


從去年的9月份開始,每週五都有R語言的學習活動,期間他會和一些工程師們經過編寫R語言的程序來分析數據並建立和開發相關的模型。而這些分析結果和模型已經用在了實際的產品中,包括在數據團隊以及其餘開發團隊之中。nj




大約有6個工程師會按期地參與R語言的學習活動,而他們都幹出了不錯的成果。他特別欣賞的是Ian Allen和Jisoo Shin,他們在這幾個月的學習活動中提出了許多好的觀點。Ian Allen和Jisoo Shin兩人是去年夏季加入的公司,曾對學習使用R語言來輔助產品功能上的設計很是感興趣。這些參與到R語言學習的工程師最終都證實了數據分析也能夠成爲工程師們平常工做中的一部分。


  • 寫產品化的代碼


David Robinson說,這一年來,他寫的代碼也悄然發生着變化。


Stack Overflow網站背後實際上使用的是C#代碼,在他工做的第一年,是須要寫C#的,儘管更多的時候在用R;直到第二年,他才徹底中止寫C#。David Robinson上一次提交C#程序這種產品化的代碼是在一年前了,做爲一個果粉,他終於能夠不用碰Windows了。


這種變化體現了一個數據科學家在工程師團隊裏的角色變遷。David Robinson如今的平常工做是數據分析而不是上線產品的新功能,能夠更專一於寫R程序,而不須要在其餘編程語言之間切換,從而提高工做效率。


他如今和工程師們配合工做,經過數據分析和更新模型來改善線上的產品。一直以來,David Robinson都會經過寫一些技術文檔,來記錄須要查詢的數據源和提出的模型。這種流量數據很是難於提取和分析,但經過編寫程序將這些數據轉化爲可查詢的數據庫表格,他後續的數據分析和挖掘工做才得以順利完成。


  • 招聘第二個數據科學家


做爲團隊中惟一的一位數據科學家,David Robinson表示至關艱辛:


目前個人大多數統計工做都是須要僅靠本身來完成的,對此我須要極其地謹慎。這是由於即便我在報告中使用了錯誤的統計假設方法,而身邊幾乎也沒有可以人會意識到。」


這個問題一直存在着,直到去年的12月份,他們終於僱傭了第二個數據科學家:Julia Silge




對於Julia的加入,David Robinson表示特別興奮,由於自從他們在2016年的rOpenSci會議上相識並共同開發tidytext包,他們這一年來一直在一塊兒工做。Julia是一位優秀的同事,多了她,他們既可以在統計分析工做上合做,也可以專一於工做中的各個小部分。她在寫做和溝通上一樣經驗豐富,這對接下來的目標相當重要。


  • 跨團隊協做


前面提到的Providence個項目,是招聘類廣告信息方面的數據科學工做,目的是想讓有求職需求的Stack Overflow用戶能看到他感興趣的廣告。讓查看Python和Javasrcipt相關問題的用戶,找到Python方向的Web開發工做,這樣的機制能爲公司帶來重要利潤,這也說明數據對於商業的推進是多麼的重要。




Stack Overflow的另外一個廣告項目是展現廣告(Display Ads),不一樣於招聘類廣告,展現廣告主要是爲相關技術人員推銷對應的產品和服務。David Robinson與展現廣告團隊運營組共同協做,對廣告的展現和評估設計了許多方法,特別是應對廣告攔截軟件的舉措,其中潛在的大量數據一定會使公司受益。


若是你對此感興趣,能夠去讀Steve Feldman所寫的「爲何Stack Overflow不在意你屏蔽廣告」:


https://stackoverflow.blog/2016/10/26/why-stack-overflow-doesnt-care-about-ad-blockers/


  • 寫做


關於寫做,David Robinson以爲對於作數據科學來講,也是必不可少的。


他說,「這是一項被我低估的優點。寫做可讓我對本身所作的數據分析工做進行更多分享,好比分析了目前最冷門的編程技術。」


從去年的12月到如今,他寫了許多有關公司內容的文章:


在紐約、舊金山、倫敦和班加羅爾作軟件開發有哪些不一樣之處;

https://stackoverflow.blog/2016/11/30/how-do-developers-in-new-york-san-francisco-london-and-bangalore-differ/

軟件開發、網站站長和Ninjas:關於職位名稱的含義;

https://stackoverflow.blog/2016/12/20/developers-webmasters-and-ninjas-whats-in-a-job-title/

軟件開發無國界:Stack Overflow的全球化;

https://stackoverflow.blog/2017/01/30/developers-without-borders-the-global-stack-overflow-network/

在校學生會使用Stack Overflow嗎;

https://stackoverflow.blog/2017/02/15/how-do-students-use-stack-overflow/

會有人真正去訪問Stack Overflow的主頁嗎;

https://stackoverflow.blog/2017/03/09/anyone-actually-visit-stack-overflows-home-page/

深夜最愛使用什麼編程語言;

https://stackoverflow.blog/2017/04/19/programming-languages-used-late-night/

淺談Stack Overflow的發展趨勢;

https://stackoverflow.blog/2017/05/09/introducing-stack-overflow-trends/

Stack Overflow上所呈現的移動端開發現狀;

https://stackoverflow.blog/2017/05/16/exploring-state-mobile-development-stack-overflow-trends/

Stack Overflow:讓百萬開發人員選擇棄用Vim;

https://stackoverflow.blog/2017/05/23/stack-overflow-helping-one-million-developers-exit-vim/

常敲空格鍵的開發者比常敲Tab鍵的賺錢更多;

https://stackoverflow.blog/2017/06/15/developers-use-spaces-make-money-use-tabs/


固然,團隊的其餘成員也寫了一些有關數據分析的文章:


編程技術的變遷歷史(Kevin Montrose)

https://www.stackoverflowbusiness.com/blog/the-changing-landscape-of-programming-technologies

相比在舊金山,在瑞典作軟件開發的好處 (Julia Silge)

https://stackoverflow.blog/2017/01/16/benefits-for-developers-from-san-francisco-to-sweden/

2016年度Stack Overflow女性用戶調研 (Julia Silge)

https://stackoverflow.blog/2017/01/19/women-in-the-2016-stack-over-survey/

最喜歡在週末使用的編程語言 (Julia Silge)

https://stackoverflow.blog/2017/02/07/what-programming-languages-weekends/

2017年軟件開發方面的招聘趨勢 (Alyssa Mazzina和Julia Silge)

https://stackoverflow.blog/2017/03/09/developer-hiring-trends-2017/

最現實的軟件開發者是…… (Julia Silge)

https://stackoverflow.blog/2017/03/28/realistic-developer-fiction/

在Stack Overflow上搜索職位的背後 (Aurélien Gasser)

https://medium.com/@aurelien.gasser/a-dive-into-stack-overflow-jobs-search-62bc6e628f83

軟件開發者進入勞動市場的現狀 (Julia Silge)

https://stackoverflow.blog/2017/06/12/new-kids-block-understanding-developers-entering-workforce-today/


寫完博客,David Robinson把文章整理成書,他已經出版了一本電子書《經驗主義貝葉斯:從一個棒球統計案例提及》。此外,他還跟Julia共同出了一本R語言的書——《利用R語言進行文本挖掘》(Text Mining with R),你能夠在這裏免費閱讀:
http://tidytextmining.com/
。他說本身還會繼續下去。


Julia和我在O’Reilly上發表和出版了一本書,叫《利用R語言進行文本挖掘》(Text Mining with R),如今已經在Amazon上架了而且能夠免費在線閱讀-(http://tidytextmining.com/)。David Robinson也出了一本電子書,《經驗主義貝葉斯:從一個棒球統計案例提及》,這本電子書參考了一系列的博文。


在AI科技大本營微信公衆號(rgznai100)會話回覆「 數據」,得到《經驗主義貝葉斯:從一個棒球統計案例提及》電子書所參考的文章地址。


我很享受將一些博客整理成書籍的過程,明年我會繼續作下去。


原文連接:

http://varianceexplained.org/r/year_data_scientist/

http://varianceexplained.org/r/two-years-data-scientist/

相關文章
相關標籤/搜索