如何系統學習數據分析?

不少學習數據分析的同窗也都有這樣一種困惑「爲何學了那麼多工具,仍是不會數據分析?」,緣由無外乎兩個,一是隻學到了碎片的知識,沒有創建知識之間的鏈接,沒法形式本身的知識體系,二是缺少實踐,致使沒法造成「知行合一」的工做技能。算法

數據分析

知識超載和碎片化

當代人都面臨兩個問題——信息超載和知識碎片化。編程

信息超載老話題很少說了,講幾個數據:微信

全世界天天有4000本書出版,超過4億個字;網絡

紐約時報一天的文字量等於牛頓同時代的人一輩子的閱讀量;框架

一個專業領域,天天大概有200個公衆號正在註冊,有近1000篇文字正在產生……編程語言

過去雜家、博物家在現代社會已經不可能存在,即便有,也幹不過谷歌度娘。工具

結論1:知識的儲存能力,人類早就被電腦完勝了,知識的搜索和連接能力,纔是學習的核心競爭力。oop

另外一個趨勢也很明顯:知識碎片化。這個碎片化從3個方面開始——學習

首先時間和空間被打碎,移動手機容許你在三站地鐵裏聽完一本書;大數據

其次被打碎的是信息,若是你翻知乎、今日頭條或者某個博客,你並不會像看一本書同樣,知道前面一章講什麼的,後面即將講什麼,除了標題黨,你根本對下一個博客、內容毫無預期,只能被動接受;

最糟糕的實際上是知識結構碎片化——你並不知道是誰,在什麼狀況下,針對什麼問題講的這句話。全部的信息缺少了上下文,就是廢話。

好比說有段時間我刷管理類的文,你會發如今雷軍、傅盛、彼得德魯克、吳伯凡、馬雲、吳曉波……各位大佬針對同一個問題講的內容徹底不一樣。到底信哪一個?其實雷軍講的是互聯網行業;傅盛講的是小企業逆襲,他正在作投資;彼得德魯克用管理在講哲學;吳伯凡老師在講中西方文化;馬雲老師在對大衆勵志;吳曉波實際上是用管理談財經——更重要的是,他們講話的場合,時間點和對象你一無所知。

結論2若是一我的沒有搜索能力,他不會知道背景;沒有思考能力,不會知道爲何——這樣單純知道一句話,比不知道更糟糕。

把前面兩個結論放一塊,結果很清晰——時間空間碎片化確實可以提升學習的效率(其實也幹不過電腦),而信息碎片化和知識結構碎片化帶來的,則是學習效率的倒退和焦慮之源——由於他毀掉你的主動搜索能力主動連接的能力,也就是深度思考的能力

這就是碎片化的陷阱,極大的提升了並無什麼卵用的信息,而下降了最重要的獨立思考的能力。 

知識能夠零售嗎?

最近的問答類APP很是火,先是知乎4月份在其微信公衆號悄然上線了【值乎】,然後果殼網在5月份不甘示弱,上線了【分答】而且後來居上,用戶活躍一會兒超越了【值乎】。

【分答】是一款付費語音問答產品,它的規則很是簡單,有三種角色設定:回答者、提問者、偷聽者。回答者只需說明本身擅長的領域,而後設置付費問答的價格,價格規定在1-500元之間,感興趣的用戶能夠做爲提問者付費後對回答者進行<=50字的文字提問,而後回答者經過<=60s的語音來回答問題。在此過程當中,其餘用戶能夠做爲偷聽者經過1元的付費來「偷聽」回答者的語音回答。被「偷聽」一次,提問者和回答者能夠各得0.5元。

【分答】吸引人的地方有兩個,一個是提問和回答能賺錢,讓知識再也不是免費的分享,真正作到了書中自有黃金屋;一個是明星效應,或者說是網紅效應。【分答】一開始可以點爆市場,看它的卡司就知道了。

有亞洲首富之子同時也是國民老公的王思聰,有各種綜藝大咖如《最強大腦》的帥氣教授魏坤琳、《奇葩說》第一季冠軍馬薇薇、《邏輯思惟》創始人羅振宇等,還有演藝界的明星佟大爲、汪峯等,這樣強大的陣容,讓【分答】在上線20幾天的時候,就拿到一億美金的估值,而國民老公王思聰,僅僅回答了25個問題,短短的25分鐘時間,就賺了11萬多。

在一片喧囂,全民歡騰事後,靜下心想想,以「知識的零售平臺」爲目的的【分答】一類的問答社區,真的能達到傳播知識,提高能力的效果?

若是說【知乎】的一問多答,乾貨至上的模式,收穫的是多角度的價值觀、人生觀以及知識體系;【果殼】的科技報道,收穫的是科技的鮮爲人知的小細節,是滄海遺珠。那麼【分答】一類的60s的語音回答,收穫的或許只是跟明星的親密接觸,以及搞一個大新聞賺錢的慾望的知足。爲何這麼說呢?

  • 首先,對於答題者來講,60s的時間僅足夠講一、2個笑話,對於一個知識點來講根本不足以講透,因此這60s的回答不是用來提供知識的;

  • 其次,對於提問者來講,提問字數限制在50個字之內,提問的東西只能很是直接,根本無暇顧及問題的背景。所以在【分答】上常常出現如下的問題:          若是非要二選一作你的女友,你選XXX仍是XXX,爲啥?  你和XXX的性福生活是真是假?  你多久啪啪啪一次,最近的一次啪啪啪是何時和誰?

  • 最後,對於提問者來講,提問的目的再也不是單純的但願得到知識,而是想得到更多的人偷聽,從而達到賺錢的目的,這樣的目的,不利於知識的正向分享。

知道哪些知識重要比學習知識更重要

咱們都有這樣的經歷,在上學的時候,準確而準時地劃重點的老師會每每被同窗們點贊。曾幾什麼時候,劃重點成爲課堂最激動人心和最使人期待的一刻。在信息爆炸時代,尤爲如此,最重要的不是增長信息,而是篩選和刪除信息。

系統學習的重要性

任何學習知識,都是相互聯繫,相互做用的。所以第一步就是找出各部分間的直接聯繫,把網絡結構初步地創建起來。可是有些部分和其餘部分並不必定可以創建直接的聯繫,那麼還須要發掘第二層、第三層關係。 要明確各部分之間的關係,以及綜合運用。 學習是先模糊歸納,再逐漸在大框架下逐步明晰細節、完善結構、針對缺陷和不足專攻的學習方法。

行動學習理論認爲,人要掌握一門技能,須要有10%的時間學習知識和信息,70%的時間練習和踐行,還有20%的時間與人溝通和討論。這個原則叫作721原則。

碎片化學習對於10%的信息接收很是有用,而剩下獨處練習的70%和討論的20%,則須要留出大量時間來系統學習——碎片化學習永遠只是系統化學習的輔助。你須要留出足夠多整塊時間學習。

所謂系統學習法,是指把所學內容當成是一個系統看待,力求從大方向出發指導學習,這樣,在學習的時候不是循序漸進按章節行進,而是先模糊歸納,再逐漸在大框架下逐步明晰細節、完善結構、針對缺陷和不足專攻的學習方法。

如何系統學習數據分析?

在學習數據分析以前應該明白幾點

  • 數據初期的準備一般佔整個數據挖掘項目工做量的70%左右。

  • 數據分析師自己融合了業務知識、統計學和計算機等學科,並非新的技術。

  • 數據分析更適合業務人員學習(相比技術人員學習業務來的更高效)

  • 數據分析項目一般須要重複一些毫無技術含量的工做。

職業規劃

以數據分析師爲例,先看一下國內知名互聯網數據分析師的招聘要求:

  • 計算機、統計學、數學等相關專業本科及以上學歷;

  •  具備深厚的統計學、數據挖掘知識,熟悉數據倉庫和數據挖掘的相關技術,可以熟練地使用SQL;

  •  三年以上具備海量數據挖掘、分析相關項目實施的工做經驗,參與過較完整的數據採集、整理、分析和建模工做;

  •  對商業和業務邏輯敏感,熟悉傳統行業數據挖掘背景、瞭解市場特色及用戶需求,有互聯網相關行業背景,有網站用戶行爲研究和文本挖掘經驗尤佳;

  •  具有良好的邏輯分析能力、組織溝通能力和團隊精神;

  •  富有創新精神,充滿激情,樂於接受挑戰

前三個屬於硬件要求,通常而言,有專業基礎(計算機、統計學、數學等相關專業)入行須要3個月以上的學習。對於非專業背景的同窗,入行的時間可能須要的更長,建議給本身預留6-12月的時間。而要成爲一個熟手(企業用工需求最多)則須要2-3年以上的行業經驗。

Anyway,做爲一門對數學和計算機都有較高要求的一門交叉學科,從事大數據是有必定門檻的,但相對於10年以上的職業生涯(國外頂尖數據科學家50-60歲仍然十分活躍),預備半年的時間來學習這個最煊赫一時的技能仍是很划算的。

從業務開始

學習一門技術要和行業靠攏,沒有行業背景的技術如空中樓閣。技術尤爲是計算機領域的技術發展是寬泛且快速更替的(十年前作網頁設計都能成立公司),通常人沒有這個精力和時間全方位的掌握全部技術細節。可是技術在結合行業以後就可以獨當一面了,一方面有利於抓住用戶痛點和剛性需求,另外一方面可以累計行業經驗,使用互聯網思惟跨界讓你更容易取得成功。不要在學習技術時想要面面俱到,這樣會失去你的核心競爭力。

大數據是技術工具,最終的應用須要深刻理解業務企業的業務場景和商業模式,甚至有人說不懂業務就不要談大數據,可見領域知識的重要性。值得一提的是,近幾年在頂尖科學雜誌《Nature》與《Science》上發表的大數據文章都是來自行業專家,而並不是計算機專家,這從另一個方面反映了業務知識的重要性。

get技能

數學知識

數學知識是數據分析師的基礎知識。對於初級數據分析師,瞭解一些描述統計相關的基礎內容,有必定的公式計算能力便可,瞭解經常使用統計模型算法則是加分。對於高級數據分析師,統計模型相關知識是必備能力,線性代數(主要是矩陣計算相關知識)最好也有必定的瞭解。

分析工具

對於初級數據分析師,玩轉Excel是必須的,數據透視表和公式使用必須熟練,VBA是加分。另外,還要學會一個統計分析工具,SPSS做爲入門是比較好的。對於高級數據分析師,使用分析工具是核心能力, SPSS/SAS/R至少要熟練使用其中之一,其餘分析工具(如Matlab)視狀況而定。

編程語言

對於初級數據分析師,會寫SQL查詢,有須要的話寫寫Hadoop和Hive查詢,基本就OK了。對於高級數據分析師,除了SQL之外,學習Python是頗有必要的,用來獲取和處理數據都是事半功倍。固然其餘編程語言也是能夠的。

勤於學習

大數據時代的知識,沒有像印刷時代對知識結構視爲必須具有的「基礎」知識,知識是非線性的,能夠自由組合、切割,處於一種分散和遊離的狀態。將來,你必須具有快速自學和捕捉知識的能力,學習將從一個「知識儲備,學以至用」的過程,向「知識構建,用時再學」的過程轉變,學習將是一個持續的,乃至終身學習的過程。爲此你須要具有一種快速而靈活的學習方式。

參與一次系統培訓:

系統培訓可以幫你規劃並實施一個系統的學習方案,會在你起步的時候構建一個比較紮實的基礎知識框架,這個過程和蓋樓時先打地基的道理是同樣的,地基打的越深,樓房才能蓋的越高。具有項目經驗的講師會講授不少實際工做中的項目經驗,能夠帶領你們快速進入正確的學習通道,少走彎路。固然,培訓取代不了工做實踐,如前所述,多在工做中積累業務經驗,技能水平才能提高的更快。

在社區快速學習:

在國外,除了大學,社區形式的學習平臺(如r4stats.com、KNIME)因爲知識更新快,學習時間更加靈活,造成了獨特的社區學習(community learning)現象。社區裏不但有初學者(freshman),也是很多頂尖技術專家(Veteran)光顧的地方。社區是一個自由、無中心的交流學習平臺,沒有權威,一切均可以質疑和挑戰。固然,若是要和這些高手過招,你必須先打好英語基礎。將來,社區將成爲從業者技能get、快速充電的重要渠道,社區或將成爲繼高等學校、職業學校之外的一個「無圍牆」的校園。

更多大數據與分析相關行業資訊、解決方案、案例、教程等請點擊查看>>>

相關文章
相關標籤/搜索