目錄python
數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和造成結論而對數據加以詳細研究和歸納總結的過程。
web
數據分析的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操做成爲可能,並使得數據分析得以推廣。數據分析是數學與計算機科學相結合的產物。
經常使用的分析工具是Excel。
數據分析過程的主要活動由識別信息需求、收集數據、分析數據、評價並改進數據分析的有效性組成。
算法
多維性和描述性shell
它們一般與數據可視化工具進行配套使用。
數據庫
主要是結構化數據,包括表格型的數據,多維數組(矩陣),數據庫多表結構等。
又是根據須要,能夠把數據集轉換爲一個更易分析,建模的結構形式。
編程
在python中,有好多已經很完善的類庫,並且很容易整合C,C++和FORTRAN等語言的代碼,並配合很好的算法進行數據操做。
其實python也有不少缺點,這裏先忽略它們,下面向你們介紹一些python重要的數據分析庫。windows
IPython是一個交互式計算系統。又是一個更具交互性的python解釋器,其自己並不提供任何計算或數據分析工具,它主要是提供了一個環境,並且比默認的python shell 好用得多,支持變量自動補全,自動縮進,支持 bash shell 命令,內置了許多頗有用的功能和函數。
能夠用cmd啓動ipython
不過通常的話仍是在anaconda中啓動ipython。數組
它的工做流是執行-探索。並不只僅可使用python,其餘語言也針對Juptyter實現了內核,容許在Jupyter中使用多種語言。
那麼什麼是Jupyter呢?bash
直接用pip進行安裝:
pip install ipython
markdown
全稱Jupyter Notebook是一個交互式筆記本,支持運行 40 多種編程語言。
本質:是一個 Web 應用程序,便於建立和共享文學化程序文檔,支持實時代碼,數學方程,可視化和 markdown。
用途包括:數據分析,清理和轉換,數值模擬,統計建模,機器學習等等。
==其實,在Jupyter Notebook 中,代碼能夠實時的生成圖像,視頻,LaTeX和JavaScript。==
Jupyter Notebooks 成了數據科學家最經常使用的工具之一。
官網上有詳細教程https://jupyter.org/install
用pip,或者使用Anaconda安裝Jupyter
打開Jupyter:
而後自動跳轉到網頁,就能夠編輯了:
能夠先跳轉到指定文件夾,而後再打開jupyter notebook:
會生成這些文件:
Anaconda指的是一個開源的Python發行版本,其包含了conda、Python等180多個科學包及其依賴項。
它其實就是一個開源的包、環境管理器,能夠用於在同一個機器上安裝不一樣版本的軟件包及其依賴,便可以很方便的切換不一樣的版本(包括各個版本的python和各個版本的類庫),並可以在不一樣的環境之間切換。
Anaconda包括Conda、Python以及一大堆安裝好的工具包,好比:numpy、pandas等。
它是適用於企業級大數據分析的Python工具。其包含了720多個數據科學相關的開源包,在數據可視化、機器學習、深度學習等多方面都有涉及。不只能夠作數據分析,甚至能夠用在大數據和人工智能領域。
==安裝完anaconda,就至關於安裝了Python、IPython、集成開發環境Spyder、一些包等等。==
能夠理解爲,一個python環境中須要有一個解釋器, 和一個包集合。
進入官網https://www.anaconda.com/
安裝後會有下面的應用
安裝後在cmd中輸入conda --version,會看到版本:
或者直接進入Anaconda Prompt終端:
用conda list列出已經安裝的全部庫:
有關不一樣的環境的建立,在下一個教程會介紹。
通常在Juptyter中進行交互式操做,在集成開發環境(IDE)中進行大型數據處理,在文本編輯器中進行簡單操做。
NumPy是使用Python進行科學計算的基礎包。 它包含:
做用:這種工具可用來存儲和處理大型矩陣,比Python自身的嵌套列表結構要高效的多。
numpy和稀疏矩陣運算包scipy配合使用更加方便。
pandas 是 是python的一個數據分析包,是基於NumPy 的一種工具,該工具是爲了解決數據分析任務而建立的。
pandas提供了大量能使咱們快速便捷地處理數據的函數和方法。
數據結構以下:
Panel :三維的數組,能夠理解爲DataFrame的容器。
Matplotlib 是一個 Python 的 2D繪圖庫,它以各類硬拷貝格式和跨平臺的交互式環境生成出版質量級別的圖形。
能夠生成繪圖,直方圖,功率譜,條形圖,錯誤圖,散點圖等。
SciPy是一款方便、易於使用、專爲科學和工程設計的Python工具包.它包括統計,優化,整合,線性代數模塊,傅里葉變換,信號和圖像處理,常微分方程求解器等等.
它是一個機器學習工具包,在後面會介紹。
Statsmodels是Python的統計建模和計量經濟學工具包,包括一些描述統計、統計模型估計和推斷。
這些庫在anaconda中都有,安裝了anaconda安裝器,至關於把這些都安裝上去了。