從業務中來,到業務中去,顧名思義,數據分析要圍繞業務進行,由此咱們得出來 業務調研->創新分析->邏輯思考->可行建議python
數據分析的關鍵是方法而不是技術,就像咱們寫做同樣,華麗的修辭並不重要,最重要的要表達出本身的想法以及意境和格局。 多角度思考問題,一般咱們能夠拓展知識面,好比說,從經濟學,心理學和統計學進行數據分析算法
精心準備的數據, 從數據相關性得出結論,數據分析不經過比較,數據準備不充分,先入爲主 ,從統計學的觀念入手,過分腦補的推理編程
生活中,咱們面對事情,要多想一想爲何,而不是是什麼,探討問題背後的本質纔是最重要的。之因此使用統計被髮明是由於統計學可以簡化數據,經過更簡單的方式看到數據的本質。機器學習
統計學是對抽樣慨率的一種體現,因此咱們不能全新,若是這樣說的話,感受統計學幾乎沒什麼做用了,可是大數定律告訴咱們隨着咱們對抽樣樣本的增多,統計值會無限趨向於真實值。學習
數據分析過程咱們要善於從不一樣的維度進行分析事物,可是隨着維度的增長,會形成數據量的減少,因此咱們要學會使用大數定律進行權衡利弊。大數據
咱們要怎麼認知這個世界?經過平行的理論(實驗組和對照組),經過統計抽樣進行比較(根據大數定律,數據抽樣要儘量大,減小正態分佈的偏差)設計
咱們思考問題的入手方式有哪些?化繁爲簡,逐步改進。找出典型,從中入手。基於需求,作出應用。圖片
分佈分析,咱們在分析數據時不能只看統計數據,還要看分佈狀態。數據分析
趨勢分析,不一樣的場景使用不一樣的方案去作分析it
因素分解, 分爲縱向拆分(分模塊劃分)和橫向邏輯(加減乘除)兩種辦法
個案分析 選擇明顯特徵的個案進行分佈分解分析 異常分析 科學或者數據分析的進步都是由於異常而被發現的 分組分析 針對不一樣的需求進行不一樣的羣體劃分,例如,廣告投放業務,咱們須要按照,新老客戶,大小客戶,不一樣行業客戶進行劃分.
分組分析在實際使用種又能夠分爲留存分析,價格歧視,根據不一樣用戶羣體和需求細分
經過四象限法則,把不一樣的用戶或者事物進行劃分。
切片(按照不一樣維度進行劃分)和鑽取(更進一步的細分)
聚類分析: 告訴機器按照不一樣的維度進行劃分出數據模型 關聯分析: 按照咱們想要的模式進行劃分(置信度和知識度要高)
給出假設算法模型,機器窮舉計算,得出最優算法(隨着特徵的愈來愈多,正態分佈最後會造成一條線,分析的也是愈來愈準確)
機器學習說白了人的學習(人根據業務,取得樣本,設計算法,機器執行,查看結果),機器只是在執行。
銀行信貸算法是基於似然機率進行計算得出。
經過大量的數據,咱們可以對一些特徵值進行細化,根據特徵值又能進一步高效利用大數據 對於大數據,咱們首先要有一個這樣的認識,數據分析技術並不重要,咱們首先要有必定數據積累,而後結合咱們的業務模型,而後利用數據技術,分析出可用的技術。 編程基礎(python和R語言)+ 結合具體業務
一個團隊,每一個人扮演的角色都很是重要,咱們要善於發現別人的美,不能存在比較之心。