Python數據科學(一) python與數據科學應用(Ⅰ)

傳送門:

1.數據科學簡介與應用

數據科學主要以統計學、機器學習、數據可視化以及(某一)領域知識爲理論基礎,其主要研究內容包括數據科學基礎理論、數據預處理、數據計算和數據管理(來自百度百科)。python

1.資料科學所要具有的能力

  • 統計(Statistic)
    • 單變量分析、多變量分析、變異數分析
  • 數據處理(Data Munging)
    • 抓取數據、清理數據、轉換數據
  • 數據可視化(Data Visualization)
    • 圖表、商業智能系統

2.數據科學主要分爲如下幾個步驟

按職能來拆分可分爲數據科學家和數據工程師,
其中數據科學家主要負責前三步、而數據工程師則負責後兩步。

2.Python與數據科學

1.python語言

Python是什麼,請直接閱讀 連接第一部分。

  • 經過對比,能夠突出python的簡單易用
#使用JAVA輸出Hello World 
class test{
        public static void main(String args[]){
            System.out.println("Hello World");
  }
}

#使用python語言輸出Hello World 僅需一行代碼
print("Hello World")
複製代碼

2.python具有完整的數據分析套件

  • 若是須要作統計科學計算,python中具有Numpy、Scipy、statsmodels.編程

  • 若是須要進行深度學習,又可使用TensorFlow、MXNET,它們都有python的接口bash

  • 作結構化數據處理與分析,又能夠用Pandasmarkdown

  • 對大數據進行處理,可使用PySparkapp

  • 機器學習, python上又有Scikit-learnpython2.7

3.安裝Anaconda

看過我以前文章的同窗都知道,我一直用的是python2.7 最先也使用過3.5,如今卻要帶你們安裝Anaconda,原諒我當初學習python的時候太年輕,Python易學,但用好卻不容易,其中比較頭疼的就是包的管理和Python不一樣版本的問題,特別是當你使用Windows的時候。而後就出現了發行版的Python(好比Anaconda),發行版最直接的好處就是將python和許多經常使用的package打包,方便咱們使用。接下來我帶你們安裝Anaconda.機器學習

也能夠百度搜索Anaconda

根據本身的電腦系統選擇

建議安裝使用Python3,理由以下編程語言

而後根據本身電腦進行32/64位的下載。 函數

下載完畢安裝就好,記得環境變量那一項要勾選

安裝完畢後再窗口會看到帶有Jupyter notebook

4.使用Jupyter notebook

Jupyter Notebook(此前被稱爲 IPython notebook)是一個交互式筆記本,支持運行 40 多種編程語言。Jupyter Notebook 的本質是一個 Web 應用程序,便於建立和共享文學化程序文檔,支持實時代碼,數學方程,可視化和 markdown。 用途包括:數據清理和轉換,數值模擬,統計建模,機器學習等等。這也是咱們爲何要使用它的緣由。post

安裝好Anaconda,打開cmd,輸入Jupyter notebook

點擊New,新建一個文件

能夠經過按鈕或者快捷鍵運行代碼

5.Python 3 語法

1.變量類型

和其餘語言同樣,python3有六個標準的數據類型:

  • Number(數字)
  • String(字符串)
  • List(列表)
  • Tuple(元組)
  • Sets(集合)
  • Dictionary(字典)
  • 其中數字包括int、float、bool、complex(複數)。
  • 內置的 type() 函數能夠用來查詢變量所指的對象類型。 此外還能夠用Python的自省 isinstance 來判斷
>>>a = 0609
>>> isinstance(a, int)
True
>>>
複製代碼

2.列表

  • Python內置的一種數據類型是列表:list。
  • list是一種有序的集合,能夠隨時添加和刪除其中的元素。
  • 序列中的每一個元素都分配一個數字 - 它的位置,或索引,第一個索引是0,第二個索引是1,依此類推。
  • 列表能夠存放各類類型的數據
#設置一個list
li = [304,12,999,46,405]

#查看list的相關功能使用dir()
dir(li)
複製代碼

#查看list的長度
>>>len(li)
5

#查看list內容
>>>print(li)
[304,12,999,46,405]

#經過下標取值
>>>li[0]
304
>>>li[-1]
405
>>>li[0:3]
[304,12,999]

#列表增長
>>>li.append(609)
>>>print(li)
[304,12,999,46,405,609]

#列表擴展extend 接受一個參數,這個參數老是一個 list,
而且把這個 list 中的每一個元素添加到原 list 中
>>>li.extend(['xlm','love'])
>>>print(li)
[304,12,999,46,405,'xlm','love']

#list排序
>>>li.sort
>>>print(li)
[12, 46, 304, 405, 999, 'xlm', 'love']

#將一個列表降序排列
>>>li = [304,12,999,46,405]
>>>li.sort(reverse=True)
>>>print(li) 
[999, 405, 304, 46, 12]
複製代碼

3.元組

元組(tuple)與列表相似,不一樣之處在於元組的元素不能修改。

tuple = (304,12,999,46,405)
複製代碼

4.字典

  • 字典(dictionary)是Python中另外一個很是有用的內置數據類型。
  • 列表是有序的對象結合,字典是無序的對象集合。二者之間的區別在於:字典當中的元素是經過鍵來存取的,而不是經過偏移存取。
  • 字典是一種映射類型,字典用"{ }"標識,它是一個無序的鍵(key) : 值(value)對集合。
  • 鍵(key)必須使用不可變類型。
  • 在同一個字典中,鍵(key)必須是惟一的。

未完待續,連載中...

相關文章
相關標籤/搜索