數據挖掘學習

數據挖掘基礎環境安裝與使用

  • 完成數據挖掘基礎階段的全部環境安裝
  • 應用jupyter notebook完成代碼編寫運行

1.1 庫的安裝

學習目標

  • 目標
    • 搭建好數據挖掘基礎階段的環境
  • 應用

整個數據挖掘基礎階段會用到Matplotlib、Numpy、Pandas、Ta-Lib等庫,爲了統一版本號在環境中使用,將全部的庫及其版本放到了文件requirements.txt當中,而後統一安裝python

新建一個用於人工智能環境的虛擬環境程序員

mkvirtualenv -p /user/local/bin/python3 ai
matplotlib==2.2.2 numpy==1.14.2 pandas==0.20.3 TA-Lib==0.4.16 tables==3.4.2 jupyter==1.0.0 

Ta-Lib安裝會出現問題,須要先安裝依賴庫,按照如下步驟安裝:編程

# 獲取源碼庫 sudo wget http://prdownloads.sourceforge.net/ta-lib/ta-lib-0.4.0-src.tar.gz # 解壓進入目錄 tar -zxvf ta-lib-0.4.0-src.tar.gz cd ta-lib/ # 編譯安裝 sudo ./configure --prefix=/usr sudo make sudo make install # 從新安裝python的TA-Lib庫 pip install TA-Lib 

使用pip命令安裝瀏覽器




pip install -r requirements.txt

1.2 Jupyter Notebook使用

學習目標

  • 目標
    • 學會使用Jupyter Notebook編寫運行代碼
  • 應用
    • 建立文件
    • 操做cell
    • 運行操做

1.2.1 Jupyter Notebook介紹

Jupyter項目是一個非盈利的開源項目,源於2014年的ipython項目,由於它逐漸發展爲支持跨全部編程語言的交互式數據科學和科學計算bash

  • Jupyter Notebook,原名IPython Notbook,是IPython的增強網頁版,一個開源Web應用程序
  • 名字源自Julia、Python 和 R(數據科學的三種開源語言)
  • 是一款程序員和科學工做者的編程/文檔/筆記/展現軟件
  • .ipynb文件格式是用於計算型敘述的JSON文檔格式的正式規範

1.2.2 爲何使用Jupyter Notebook?

  • 傳統軟件開發:工程/目標明確
    • 需求分析,設計架構,開發模塊,測試
  • 數據挖掘:藝術/目標不明確
    • 目的是具體的洞察目標,而不是機械的完成任務
    • 經過執行代碼來理解問題
    • 迭代式地改進代碼來改進解決方法

實時運行的代碼、敘事性的文本和可視化被整合在一塊兒,方便使用代碼和數據來說述故事markdown

對比Jupyter Notebook和Pycharm架構

  • 畫圖

1.2.3 Jupyter Notebook的使用-helloworld

1 界面啓動、建立文件

  • 界面啓動

環境搭建好後,本機輸入jupyter notebook命令,會自動彈出瀏覽器窗口打開Jupyter Notebook編程語言

 

# 進入虛擬環境
workon ai
# 輸入命令
jupyter notebook

本地notebook的默認URL爲:http://localhost:8888學習

想讓notebook打開指定目錄,只要進入此目錄後執行命令便可測試

 

新建notebook文檔

  • notebook的文檔格式是.ipynb

 

  • 內容界面操做-helloworld

 

標題欄:點擊標題(如Untitled)修改文檔名 菜單欄

  • 導航-File-Download as,另存爲其餘格式
  • 導航-Kernel
    • Interrupt,中斷代碼執行(程序卡死時)
    • Restart,重啓Python內核(執行太慢時重置所有資源)
    • Restart & Clear Output,重啓並清除全部輸出
    • Restart & Run All,重啓並從新運行全部代碼

2 cell操做

什麼是cell?

cell:一對In Out會話被視做一個代碼單元,稱爲cell

Jupyter支持兩種模式:

  • 編輯模式(Enter)
    • 命令模式下回車Enter鼠標雙擊cell進入編輯模式
    • 能夠操做cell內文本或代碼,剪切/複製/粘貼移動等操做
  • 命令模式(Esc)
    • Esc退出編輯,進入命令模式
    • 能夠操做cell單元自己進行剪切/複製/粘貼/移動等操做

1)鼠標操做

 

2)快捷鍵操做

  • 兩種模式通用快捷鍵
    • Shift+Enter,執行本單元代碼,並跳轉到下一單元
    • Ctrl+Enter,執行本單元代碼,留在本單元

cell行號前的 * ,表示代碼正在運行

  • 命令模式:按ESC進入
    • Y,cell切換到Code模式
    • M,cell切換到Markdown模式
    • A,在當前cell的上面添加cell
    • B,在當前cell的下面添加cell
    • 雙擊D:刪除當前cell
    • Z,回退
    • L,爲當前cell加上行號 <!--
    • Ctrl+Shift+P,對話框輸入命令直接運行
    • 快速跳轉到首個cell,Crtl+Home
    • 快速跳轉到最後一個cell,Crtl+End -->
  • 編輯模式:按Enter進入
    • 多光標操做:Ctrl鍵點擊鼠標(Mac:CMD+點擊鼠標)
    • 回退:Ctrl+Z(Mac:CMD+Z)
    • 重作:Ctrl+Y(Mac:CMD+Y)
    • 補全代碼:變量、方法後跟Tab鍵
    • 爲一行或多行代碼添加/取消註釋:Ctrl+/(Mac:CMD+/)
    • 屏蔽自動輸出信息:可在最後一條語句以後加一個分號

 

3 markdown演示

掌握標題和縮進便可

一級標題

二級標題

三級標題

四級標題

五級標題
  • 縮進
    • 二級縮進
      • 三級縮進
相關文章
相關標籤/搜索