小白學 Python 數據分析(1):數據分析基礎

各位同窗好,小編接下來爲你們分享一些有關 Python 數據分析方面的內容,但願你們可以喜歡。數據庫

人工植入廣告:數組

PS:小編最近兩天偷了點懶,很久沒有發原創了,最近是在 CSDN 開通了一個付費專欄,用來發布去年寫的沒有出版的書稿,感興趣的同窗能夠去看下(已經上傳了一部分,第一章設置爲了試讀章節),主要是講 SpringCloud 微服務方面的一些內容,總體排版下來若是是印在實體書上應該會超過 400 頁,也算是一本比較厚的書,固然小編這個專欄的價格並不貴,只要 9.9 ,總體是沒有通過審校的,可能錯別字會比較多,固然,就這個價格,還要啥自行車呢。數據結構

數據分析是什麼?

我們言歸正傳哈,在全部事情的以前,先了解一件事情,什麼是數據分析?函數

有問題固然是先百度啊,這還用問!微服務

數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,將它們加以彙總和理解並消化,以求最大化地開發數據的功能,發揮數據的做用。數據分析是爲了提取有用信息和造成結論而對數據加以詳細研究和歸納總結的過程。工具

數據分析的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操做成爲可能,並使得數據分析得以推廣。數據分析是數學與計算機科學相結合的產物。性能

百度的這個釋義看着有點沒講人話,小編來簡單的總結匯總下:大數據

數據分析這個東西有一個很重要的點是:大量數據 這個劃重點了啊,要考的。優化

至於多大的數據叫大量數據,其實這個也沒有一個準確的定義,能夠認爲 1MB 的數據是大量數據,也能夠認爲 1GB 的數據是大量數據,也能夠認爲 1PB 的數據是大量數據,可是無論怎麼說,這個數據量必定要大,不能是幾十條几百條的數據,這種數量級的數據一眼看到底。動畫

接下來是第二個點:數學,對的,沒看錯,是數學,尤爲是統計學,當咱們擁有了大量的數據之後,使用數學的方式對數據進行必定程度的處理,接下來結合具體的業務分析數據,達到最終咱們所須要的目的,好比對一些業務進行監控、提升企業的經營效率、優化企業的管理結構等等。

在沒有計算機的年代,大量的數據即便有數學的支持,進行大數據分析也是一件很難的事情,多的不說,各位同窗先思考一下,若是不借助計算器,若是有 1百萬 個數據,須要簡單的畫一個折線圖,人工處理須要多長時間。

因此百度百科最後一句話是數據分析是數學和計算機科學的相結合的產物。

就業前景

到這裏確定不少同窗會問,數據分析這個職業的工做好很差找哇,這個職業天天主要是作什麼呢?

關於這個問題,其實最好解決,直接上招聘網站看下相關的招聘信息和對這個崗位的要求就行了。

小編簡單查了下 51Job 的上海地區的數據分析師的招聘信息,突然發現一件事兒,感受可能要砸不少培訓機構的飯碗了,好像並無大量的數據分析師的崗位要求掌握 Python 這個技能樹啊。

簡單看幾個 JD :

公司信息小編抹掉了,從招聘信息中看到,好像數據分析和 Python 並沒與什麼實際的聯繫啊,對了,確實沒有什麼確切的關係,只能說是在處理大數據的是時候,如今使用 Python 比較方便,若是數據量沒那麼大的話,使用 Excel 同樣能處理的。

若是學這個是爲了找一份數據分析的工做,如今能夠出門左轉了,小編鄭重聲明,看了小編的文章是真的找不到一份數據分析的工做的。

若是是抱着技多不壓身的目的,作一點提早的只是儲備,那麼能夠接着往下看了。

爲何須要數據分析?

在聊這個問題以前,咱們先看幾個經典的大數據分析的案例:

1. 啤酒與尿布

全球零售業巨頭沃爾瑪在對消費者購物行爲分析時發現,男性顧客在購買嬰兒尿片時,經常會順便搭配幾瓶啤酒來犒勞本身,因而嘗試推出了將啤酒和尿布擺在一塊兒的促銷手段。沒想到這個舉措竟然使尿布和啤酒的銷量都大幅增長了。現在,「啤酒+尿布」的數據分析成果早已成了大數據技術應用的經典案例,被人津津樂道。

2. Google成功預測冬季流感

2009年,Google經過分析5000萬條美國人最頻繁檢索的詞彙,將之和美國疾病中心在2003年到2008年間季節性流感傳播時期的數據進行比較,並創建一個特定的數學模型。最終google成功預測了2009冬季流感的傳播甚至能夠具體到特定的地區和州。

數據分析能夠把隱藏在大量數據背後的信息提煉出來,總結出來數據的內在規律。

數據分析這種方式逐步在取代企業中之前的那種拍腦殼的決策方式,所以愈來愈多的企業開始重視數據分析,這裏從數據分析的招聘崗位上也能夠看到。

工具

上面說了這麼多數據分析的背景,其實只是想大體讓各位同窗瞭解下什麼是個數據分析,不想看直接跳過也沒啥關係。

關於數據分析的工具這個就是一個仁者見仁智者見智的事情了,工具實在是太多了,從 Excel 到各類各樣的數據, SQL 語句, R 語言以及咱們計劃在將來介紹的 Python 。

具體工具的選擇更可能是看使用場景,若是在數據量不大的狀況下,若是你正好對 Excel 的使用比較熟悉,那麼 Excel 就是最優解,這個毋庸置疑。

若是數據量已經很是大了,存儲在各類各樣的結構化數據庫中,那麼 SQL 語言就是不可或缺的工具,在若是數據量已經很是大了,存儲在大數據集羣上,那麼使用 R 語言或者 Python 或許是一個不錯的選擇。

在 Python 中,有三個工具包被稱爲數據分析三劍客: Pandas 、 Numpy 、 Matplotlib 。

Pandas

官網:pandas.pydata.org/

中文網:www.pypandas.cn/

Pandas 是什麼?

Pandas是一個強大的分析結構化數據的工具集;它的使用基礎是Numpy(提供高性能的矩陣運算);用於數據挖掘和數據分析,同時也提供數據清洗功能。

利器之一 DataFrame:

DataFrame是Pandas中的一個表格型的數據結構,包含有一組有序的列,每列能夠是不一樣的值類型(數值、字符串、布爾型等),DataFrame即有行索引也有列索引,能夠被看作是由Series組成的字典。

利器之一 Series:

它是一種相似於一維數組的對象,是由一組數據(各類NumPy數據類型)以及一組與之相關的數據標籤(即索引)組成。僅由一組數據也可產生簡單的Series對象。

Numpy

官網:numpy.org/

中文網:www.numpy.org.cn/

Numpy 是什麼?

NumPy是使用Python進行科學計算的基礎軟件包。除其餘外,它包括:

  • 功能強大的N維數組對象。
  • 精密廣播功能函數。
  • 集成 C/C+和Fortran 代碼的工具。
  • 強大的線性代數、傅立葉變換和隨機數功能。

利器之一 Ndarray:

NumPy 最重要的一個特色是其 N 維數組對象 ndarray,它是一系列同類型數據的集合,以 0 下標爲開始進行集合中元素的索引。ndarray 對象是用於存放同類型元素的多維數組。ndarray 中的每一個元素在內存中都有相同存儲大小的區域。

利器之一 切片和索引:

ndarray對象的內容能夠經過索引或切片來訪問和修改,與 Python 中 list 的切片操做同樣。ndarray 數組能夠基於 0 - n 的下標進行索引,切片對象能夠經過內置的 slice 函數,並設置 start, stop 及 step 參數進行,從原數組中切割出一個新數組。

Matplotlib

官網:www.matplotlib.org/

中文網:www.matplotlib.org.cn/

Matplotlib 是什麼?

Matplotlib 是一個 Python 的 2D 繪圖庫,它以各類硬拷貝格式和跨平臺的交互式環境生成出版質量級別的圖形。

Matplotlib 能幫你?

繪製線圖、散點圖、等高線圖、條形圖、柱狀圖、3D 圖形、、甚至是圖形動畫等等。

由於小編是要分享 Python 相關的內容,那麼固然接下來的文章將會圍繞上面這三個工具展開,咱們會詳細的聊聊這個 Python 數據分析三劍客的使用方式。

若是個人文章對您有幫助,請掃碼關注下做者的公衆號:獲取最新干貨推送:)
相關文章
相關標籤/搜索