Python數據科學（一） python與數據科學應用(Ⅰ)

時間 2019-11-17

原文原文鏈接

傳送門：

Python數據科學（一）- python與數據科學應用(Ⅰ)

Python數據科學（二）- python與數據科學應用(Ⅱ)

Python數據科學（三）- python與數據科學應用(Ⅲ)

Python數據科學（四）- 數據收集系列

Python數據科學（五）- 數據處理和數據採集

Python數據科學（六）- 資料清理(Ⅰ)

Python數據科學（七）- 資料清理(Ⅱ)

1.數據科學簡介與應用

數據科學主要以統計學、機器學習、數據可視化以及（某一）領域知識爲理論基礎，其主要研究內容包括數據科學基礎理論、數據預處理、數據計算和數據管理(來自百度百科)。python

1.資料科學所要具有的能力

統計(Statistic)
- 單變量分析、多變量分析、變異數分析
數據處理(Data Munging)
- 抓取數據、清理數據、轉換數據
數據可視化(Data Visualization)
- 圖表、商業智能系統

2.數據科學主要分爲如下幾個步驟

按職能來拆分可分爲數據科學家和數據工程師，
其中數據科學家主要負責前三步、而數據工程師則負責後兩步。

2.Python與數據科學

1.python語言

Python是什麼，請直接閱讀連接第一部分。

經過對比，能夠突出python的簡單易用

#使用JAVA輸出Hello World 
class test{
        public static void main(String args[]){
            System.out.println("Hello World");
  }
}

#使用python語言輸出Hello World 僅需一行代碼
print("Hello World")
複製代碼

2.python具有完整的數據分析套件

若是須要作統計科學計算，python中具有Numpy、Scipy、statsmodels.編程
若是須要進行深度學習，又可使用TensorFlow、MXNET，它們都有python的接口bash
作結構化數據處理與分析，又能夠用Pandasmarkdown
對大數據進行處理，可使用PySparkapp
機器學習， python上又有Scikit-learnpython2.7

3.安裝Anaconda

看過我以前文章的同窗都知道，我一直用的是python2.7 最先也使用過3.5，如今卻要帶你們安裝Anaconda，原諒我當初學習python的時候太年輕，Python易學，但用好卻不容易，其中比較頭疼的就是包的管理和Python不一樣版本的問題，特別是當你使用Windows的時候。而後就出現了發行版的Python（好比Anaconda），發行版最直接的好處就是將python和許多經常使用的package打包，方便咱們使用。接下來我帶你們安裝Anaconda.機器學習

建議安裝使用Python3，理由以下編程語言

python3和python2有不少語法的差別，具體參考解釋 Python 2 和 Python 3 的版本之間差異
Python語言做者Guido van Rossum郵件通知Python 2.7支持時間延長到2020年，到時候將再也不進行維護

而後根據本身電腦進行32/64位的下載。函數

4.使用Jupyter notebook

Jupyter Notebook（此前被稱爲 IPython notebook）是一個交互式筆記本，支持運行 40 多種編程語言。Jupyter Notebook 的本質是一個 Web 應用程序，便於建立和共享文學化程序文檔，支持實時代碼，數學方程，可視化和 markdown。用途包括：數據清理和轉換，數值模擬，統計建模，機器學習等等。這也是咱們爲何要使用它的緣由。post

5.Python 3 語法

1.變量類型

和其餘語言同樣，python3有六個標準的數據類型：

Number（數字）

String（字符串）

List（列表）

Tuple（元組）

Sets（集合）

Dictionary（字典）

其中數字包括int、float、bool、complex（複數）。
內置的 type() 函數能夠用來查詢變量所指的對象類型。此外還能夠用Python的自省 isinstance 來判斷

>>>a = 0609
>>> isinstance(a, int)
True
>>>
複製代碼

2.列表

Python內置的一種數據類型是列表：list。
list是一種有序的集合，能夠隨時添加和刪除其中的元素。
序列中的每一個元素都分配一個數字 - 它的位置，或索引，第一個索引是0，第二個索引是1，依此類推。
列表能夠存放各類類型的數據

#設置一個list
li = [304,12,999,46,405]

#查看list的相關功能使用dir()
dir(li)
複製代碼

#查看list的長度
>>>len(li)
5

#查看list內容
>>>print(li)
[304,12,999,46,405]

#經過下標取值
>>>li[0]
304
>>>li[-1]
405
>>>li[0:3]
[304,12,999]

#列表增長
>>>li.append(609)
>>>print(li)
[304,12,999,46,405,609]

#列表擴展extend 接受一個參數，這個參數老是一個 list，
而且把這個 list 中的每一個元素添加到原 list 中
>>>li.extend(['xlm','love'])
>>>print(li)
[304,12,999,46,405,'xlm','love']

#list排序
>>>li.sort
>>>print(li)
[12, 46, 304, 405, 999, 'xlm', 'love']

#將一個列表降序排列
>>>li = [304,12,999,46,405]
>>>li.sort(reverse=True)
>>>print(li) 
[999, 405, 304, 46, 12]
複製代碼

3.元組

元組（tuple）與列表相似，不一樣之處在於元組的元素不能修改。

tuple = (304,12,999,46,405)
複製代碼

4.字典

字典（dictionary）是Python中另外一個很是有用的內置數據類型。
列表是有序的對象結合，字典是無序的對象集合。二者之間的區別在於：字典當中的元素是經過鍵來存取的，而不是經過偏移存取。
字典是一種映射類型，字典用"{ }"標識，它是一個無序的鍵(key) : 值(value)對集合。
鍵(key)必須使用不可變類型。
在同一個字典中，鍵(key)必須是惟一的。

未完待續，連載中...

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。