0012-什麼是數據科學工做臺?爲何數據科學家須要它?

數據科學本質上是一個探索和創新的過程,由於一般對於如今的問題沒有明確的答案,也沒有得到答案的肯定的途徑。數據科學家用數據和他們的經驗研究問題,探索數據,建立模型,而後經過這些再來決定選擇哪些參數和過程來處理手頭的具體問題。這使得分享與協做變得很是重要,由於須要數據科學家團隊裏的每一個人都能共享彼此的研究和知識,並最終產生最佳的結果。機器學習

數據科學隨着大數據的技術一塊兒發展,新的技術一直都在出現。這種變化從一些公司的數據科學家的背景和技能就就看得出來。數據科學家使用各類語言和工具包,包括開源的軟件好比R,Python,Spark,以及商業軟件好比SAS和SPSS,對於商業工具他們可能受過專門的培訓也會很是擅長。爲了讓數據科學取得成功,各個公司都會讓數據科學家高效的工做,讓他們用最好的技術來解決手頭的問題,而不受其背景的限制。工具

關於這點,數據科學工做臺能提升數據科學家的工做效率和產出。數據科學工做臺是一個應用程序,它容許數據科學家在本地環境或者部分企業環境下選擇他們本身喜歡的技術,語言和庫來工做。數據科學工做臺,可讓數據科學家訪問存儲在其機器和公司中的工具。例如數據科學工做臺能夠給數據科學家提供Jupyter或者Zeppelin這種notebook,同時也提供R或者Python這種普遍使用的統計語言的開發環境。學習

數據科學家須要花大量的時間和精力來搭建他們的分析環境。這個搭建過程包括識別數據,從大量數據源收集數據而且導入到數據分析平臺上,而後開始分析。經過工做臺,數據科學家只須要最簡單的設置就能夠直接鏈接到數據湖裏的數據源。一旦鏈接到數據源後,數據科學家就能夠用工做臺提供的notebook,使用Spark或者其餘機器學習技術鏈接到集羣並開始工做。測試

對於數據科學家來講一件很重要的事就是和同行或者同事交流意見和想法。數據科學工做臺提供了一個交流分享的可視化環境,這樣數據科學家能夠和不一樣技術領域的專家一塊兒交流分享他們的研究成果。團隊成員不只能夠分享代碼,還能夠把整個包括數據集的可恢復的研究環境打包分享出去,這樣團隊的其餘成員能夠直接開始研究而不須要繁瑣的設置。工做臺提供的協做模式不只能夠促進學習交流和思想碰撞,還可讓不一樣技術領域的專家們一塊兒預測模型。使用來自不一樣團隊的條件和用例來測試模型,提升了預測模型的魯棒性和預測能力。同時,在研究問題的過程當中,數據科學家會發現代碼,手冊或者操做教程均可以有效的解決手頭上的問題。市場上一些領先的工做臺還可讓數據科學家們把這些都整合到當前的項目中。大數據

數據工做臺的全部這些因素,使得數據科學家能夠自給自足,提升建模效率,更重要的是,加快了預測和分析。blog

參考英文原文:https://zh.hortonworks.com/blog/data-science-workbench-data-scientists-need-one/教程

醉酒鞭名馬,少年多浮誇! 嶺南浣溪沙,嘔吐酒肆下!摯友不願放,數據玩的花!ci

相關文章
相關標籤/搜索