Python數據分析入門(一)——瞭解Python下的函數包

1.Numpy:python

  Numpy是python科學計算的基礎包,它提供如下功能(不限於此):git

    (1)快速高效的多維數組對象naarraygithub

    (2)用於對數組執行元素級計算以及直接對數組執行數學運算的函數數組

    (3)用於讀寫硬盤上基於數組的數據集的工具數據結構

    (4)線性代數運算、傅里葉變換,以及隨機數生成函數

    (5)用於將C、C++、Fortran代碼集成到python的工具工具

 

2.pandas性能

  pandas提供了使咱們可以快速便捷地處理結構化數據的大量數據結構和函數。pandas兼具Numpy高性能的數組計算功能以及電子表格和關係型數據(如SQL)靈活的數據處理能力。它提供了複雜精細的索引功能,以便更爲便捷地完成重塑、切片和切塊、聚合以及選取數據子集等操做。code

  對於金融行業的用戶,pandas提供了大量適用於金融數據的高性能時間序列功能和工具。對象

  DataFrame是pandas的一個對象,它是一個面向列的二維表結構,且含有行標和列標。

  ps.引用一段網上的話說明DataFrame的強大之處:

  Excel 2007及其之後的版本的最大行數是1048576,最大列數是16384,超過這個規模的數據Excel就會彈出個框框「此文本包含多行文本,沒法放置在一個工做表中」。Pandas處理上千萬的數據是易如反掌的事情,同時隨後咱們也將看到它比SQL有更強的表達能力,能夠作不少複雜的操做,要寫的code也更少。 說了一大堆它的好處,要實際感觸還得動手碼代碼。

 

3.matplotlib

  matplotlib是最流行的用於繪製數據圖表的python庫。

 

4.Scipy

  Scipy是一組專門解決科學計算中各類標準問題域的包的集合。 5.statsmodels: https://github.com/statsmodels/statsmodels 6.scikit-learn: http://scikit-learn.org/stable/

相關文章
相關標籤/搜索