python數據分析&挖掘,機器學習環境配置

一.什麼是數據分析

1.這裏引用網上的定義:

       數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和造成結論而對數據加以詳細研究和歸納總結的過程。

web

2.數據分析發展與組成

       數據分析的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操做成爲可能,並使得數據分析得以推廣。數據分析是數學與計算機科學相結合的產物。
       經常使用的分析工具是Excel。
       數據分析過程的主要活動由識別信息需求、收集數據、分析數據、評價並改進數據分析的有效性組成。

算法

3.特色

       多維性和描述性shell

它們一般與數據可視化工具進行配套使用。



數據庫

二.python數據分析環境及各種經常使用分析包配置

1.處理的數據類型

       主要是結構化數據,包括表格型的數據,多維數組(矩陣),數據庫多表結構等。
       又是根據須要,能夠把數據集轉換爲一個更易分析,建模的結構形式。

編程

2.爲何選擇python

       在python中,有好多已經很完善的類庫,並且很容易整合C,C++和FORTRAN等語言的代碼,並配合很好的算法進行數據操做。




其實python也有不少缺點,這裏先忽略它們,下面向你們介紹一些python重要的數據分析庫。windows

三.python數據分析環境安裝

1.Ipython

(1)簡介

       IPython是一個交互式計算系統。又是一個更具交互性的python解釋器,其自己並不提供任何計算或數據分析工具,它主要是提供了一個環境,並且比默認的python shell 好用得多,支持變量自動補全,自動縮進,支持 bash shell 命令,內置了許多頗有用的功能和函數。
能夠用cmd啓動ipython
在這裏插入圖片描述
不過通常的話仍是在anaconda中啓動ipython。數組

       它的工做流是執行-探索。並不只僅可使用python,其餘語言也針對Juptyter實現了內核,容許在Jupyter中使用多種語言。
那麼什麼是Jupyter呢?bash

(2)安裝方法以下

直接用pip進行安裝:
pip install ipython
在這裏插入圖片描述
在這裏插入圖片描述

markdown

2.Jupyter

(1)簡介

       全稱Jupyter Notebook是一個交互式筆記本,支持運行 40 多種編程語言。
       本質:是一個 Web 應用程序,便於建立和共享文學化程序文檔,支持實時代碼,數學方程,可視化和 markdown。
用途包括:數據分析,清理和轉換,數值模擬,統計建模,機器學習等等。
       ==其實,在Jupyter Notebook 中,代碼能夠實時的生成圖像,視頻,LaTeX和JavaScript。==
Jupyter Notebooks 成了數據科學家最經常使用的工具之一。

(2)安裝

官網上有詳細教程https://jupyter.org/install
用pip,或者使用Anaconda安裝Jupyter
打開Jupyter:
在這裏插入圖片描述
而後自動跳轉到網頁,就能夠編輯了:
在這裏插入圖片描述
能夠先跳轉到指定文件夾,而後再打開jupyter notebook:
在這裏插入圖片描述
在這裏插入圖片描述
會生成這些文件:
在這裏插入圖片描述

3.Anaconda安裝器

(1)簡介

       Anaconda指的是一個開源的Python發行版本,其包含了conda、Python等180多個科學包及其依賴項。
       它其實就是一個開源的包、環境管理器,能夠用於在同一個機器上安裝不一樣版本的軟件包及其依賴,便可以很方便的切換不一樣的版本(包括各個版本的python和各個版本的類庫),並可以在不一樣的環境之間切換。
       Anaconda包括Conda、Python以及一大堆安裝好的工具包,好比:numpy、pandas等。
       它是適用於企業級大數據分析的Python工具。其包含了720多個數據科學相關的開源包,在數據可視化、機器學習、深度學習等多方面都有涉及。不只能夠作數據分析,甚至能夠用在大數據和人工智能領域。
==安裝完anaconda,就至關於安裝了Python、IPython、集成開發環境Spyder、一些包等等。==
能夠理解爲,一個python環境中須要有一個解釋器, 和一個包集合。

(2)安裝

進入官網https://www.anaconda.com/
在這裏插入圖片描述
安裝後會有下面的應用

  • Anaconda Navigtor :用於管理工具包和環境的圖形用戶界面,後續涉及的衆多管理命令也能夠在 Navigator 中手工實現。
  • Jupyter notebook :基於web的交互式計算環境,能夠編輯易於人們閱讀的文檔,用於展現數據分析的過程。
  • qtconsole :一個可執行 IPython 的仿終端圖形界面程序,相比 Python Shell 界面,qtconsole 能夠直接顯示代碼生成的圖形,實現多行代碼輸入執行,以及內置許多有用的功能和函數。
  • spyder :一個使用Python語言、跨平臺的、科學運算集成開發環境。
    有時候有問題,多是環境路徑問題。
           在windows下,在計算機->右鍵選擇屬性->高級系統設置->環境變量->系統變量->path。在path中加入anaconda安裝的目錄就能夠了。

安裝後在cmd中輸入conda --version,會看到版本:
在這裏插入圖片描述
或者直接進入Anaconda Prompt終端:
在這裏插入圖片描述
用conda list列出已經安裝的全部庫:
在這裏插入圖片描述
在這裏插入圖片描述
有關不一樣的環境的建立,在下一個教程會介紹。

4.Jupyter與集成開發環境與文本編輯器

通常在Juptyter中進行交互式操做,在集成開發環境(IDE)中進行大型數據處理,在文本編輯器中進行簡單操做。



三.經常使用數據分析包

1.NumPy

NumPy是使用Python進行科學計算的基礎包。 它包含:

  • 一個強大的N維數組對象
  • 複雜的(廣播)功能
  • 用於集成C / C ++和Fortran代碼的工具
  • 有用的線性代數,傅里葉變換和隨機數功能

做用:這種工具可用來存儲和處理大型矩陣,比Python自身的嵌套列表結構要高效的多。
numpy和稀疏矩陣運算包scipy配合使用更加方便。

2.pandas

pandas 是 是python的一個數據分析包,是基於NumPy 的一種工具,該工具是爲了解決數據分析任務而建立的。
pandas提供了大量能使咱們快速便捷地處理數據的函數和方法。
數據結構以下:

  • Series:一維數組,與Numpy中的一維array相似。兩者與Python基本的數據結構List也很相近。Series現在能保存不一樣種數據類型,字符串、boolean值、數字等都能保存在Series中。
  • Time- Series:以時間爲索引的Series。
  • DataFrame:二維的表格型數據結構。不少功能與R中的data.frame相似。能夠將DataFrame理解爲Series的容器。
  • Panel :三維的數組,能夠理解爲DataFrame的容器。

    3.matplotlib

    Matplotlib 是一個 Python 的 2D繪圖庫,它以各類硬拷貝格式和跨平臺的交互式環境生成出版質量級別的圖形。
    能夠生成繪圖,直方圖,功率譜,條形圖,錯誤圖,散點圖等。

    4.sciPy

    SciPy是一款方便、易於使用、專爲科學和工程設計的Python工具包.它包括統計,優化,整合,線性代數模塊,傅里葉變換,信號和圖像處理,常微分方程求解器等等.

    5.scikit-learn

    它是一個機器學習工具包,在後面會介紹。

    6.statsmodels

    Statsmodels是Python的統計建模和計量經濟學工具包,包括一些描述統計、統計模型估計和推斷。

       這些庫在anaconda中都有,安裝了anaconda安裝器,至關於把這些都安裝上去了。

相關文章
相關標籤/搜索