快問快答 | 助教帶你學習數據科學(附答疑視頻領取)

Q: 能夠推薦一本徹底零基礎的python書看一下嗎?我沒有數據基礎。php

A: 《簡明Python教程》python

我有幾張阿里雲幸運券分享給你,用券購買或者升級阿里雲相應產品會有特惠驚喜哦!把想要買的產品的幸運券都領走吧!快下手,立刻就要搶光了。

Q:在校生,想搞明白將來的職業發展。算法

A:我看數據科學相關的崗位有,好比:數據分析,數據挖掘,機器學習,天然語言處理,計算機視覺,深度學習工程師等等,還有推薦算法、搜索算法。sql

我以爲我們的培養目標和數據挖掘、機器學習這兩個崗位的要求更貼近。固然,像數據分析、天然語言處理、計算機視覺、深度學習,推薦算法等等這些崗位,就是更專業一點,或者說更垂直一點。編程

我一直以爲機器學習目前還不是一種通用技術,可能很長一段時間內也不會是。因此與其關心具體的技術方向,不如選個本身感興趣的領域更重要。windows

我剛看了一下,如今AI相關的崗位種類愈來愈多了。app


3

**Q:羣裏的好多人都是有基礎的,咱們這種徹底零基礎的怎麼辦呢?就是一開始不知道該從何入手。
**
A:捷徑就是給每一節課作好筆記!作筆記的目的是:讓筆記上的內容可以覆蓋視頻中你以爲有價值的全部信息!換句話說,就是視頻看過一次就不會再看第一次了,只看本身的筆記就好!機器學習

還有就是天天都要花幾個小時在學習上~ 這個很重要,由於天天都須要鍛鍊對數據的感受和熟悉度。編輯器

**Q:數學和編程的基礎很差怎麼辦?還能夠學數據科學嗎?
**
A:數學和編程就像打鑽山隧道,有時候你會以爲遇到頑石百攻不破,這時候不可放棄。此處不通不意味着他處不通。先把問題放一放,跟着老師繼續走。可能過幾天回頭再來看那個問題就容易多了。慢慢來,學習都是持久戰,沒有一口吃個大胖子的。函數

沒有微積分基礎,不意味着就無緣數據分析了。微積分對數據分析算法影響比較大的是迴歸,其它好比貝葉斯、決策樹都不要緊。並且若是僅是實現數據分析,你會寫python更重要。python都把已有的各類模型算法集成了,其實對於用戶來講,就是調整幾個參數而已,並不設計算法的核心代碼修改。若是想進一步成爲數據科學家,才須要瞭解算法自己。若是隻是打比賽,算法並非特別重要。

若是想快速地補一補數學知識,我能夠推薦不錯的數學基礎視頻講解。

Q:你們有安裝mac 系統的python的嗎?

A:Mac系統 本身就帶python。具體方法爲:在這裏輸入「終端」。


2

找到下方應用,雙擊打開,而後輸入python,就是python命令行環境了,自帶2.7版本的python。

1

能夠百度一下這個連接:yanghao.org/blog/archiv…

zhuanlan.zhihu.com/p/25198543這…

Q:例題都是.py的保存方式,可個人數據保存以後都是.ipny呀,兩個是由於編輯器不一樣的緣由嗎?

A:jupyter notebook默認將文件報訊城.ipny格式,你也能夠保存成.py格式,具體方式以下圖。python自帶的IDE,Pycharm等通常的IDE都支持.py格式的文件。

Q:如今好像XGBOOST用的頻率挺高的,泛化性能應該挺不錯的吧?

A:號稱大殺器 用過就知道了,不過精度過高,是有可能過擬合的,因此交叉驗證看看。

**Q:助教,諮詢你一個問題,我這兩天同時看《利用python進行數據分析》、《機器學習實戰》、sql還有我們的預習資料,看的腦殼都快炸了。能不能給點建議,目前要怎麼學習?
**
A:先練習python,而後能夠預習一下pandas,還想看別的話,能夠看看scikit-learn。先掌握技能,而後在練技能的基礎上再補理論知識,至於你剛纔說的那兩本書,能夠之後做爲輔助學習。

不要着急,把基礎打好,python,pandas都差很少了就看看scikit-learn,都是之後經常使用的工具。

Q:st,data,ss2 = summary_table(res,alpha=0.5)#從模型得到擬合數據,自行車模型的,st,data,ss2是summary_tabel的返回值嗎? 「=」左邊的三個數是什麼,不是具體含義。

A:從變量的命名看來,返回的值是標準差,數據,還有擬合變剩餘隨機成度的差值。st就是返回的整個表,也就是說是返回值,對應前三個。data是ss2對應的數,好比第三列是預測結果。

Q:異常值檢測有哪些經常使用的方法?

A:UpperLimit=Q3+1.5IQR=75%分位數+(75%分位數-25%分位數)

1.5, LowerLimit=Q1-1.5IQR=25%分位數-(75%分位數-25%分位數)
1.5。

Q:jupyter能不能撤銷命令?就是執行完一段代碼,對原來的內容進行了修改,想撤銷這個代碼的執行,恢復到原來的內容。

A: jupyter 是一個筆記本,因此不須要的東西能夠直接刪除重寫,就像word同樣。 若是你指的撤銷是如何停下在跑的內容,用ctrl+c。至關於你submission 裏面的內容已經被錯誤代碼處理,而且處理結果替換了原始值,你如今但願從新進行一遍,那隻能重新load你的submission的數據,因此在處理的時候對於替換性的操做要稍微當心一些,在操做的時候儘可能保證你的重要數據都有備份,好比新數據以添加一列而不是直接替換原有列來進行操做。

Q:通常什麼樣配置的筆記本能愉快地玩耍機器學習呢?好比結業了去打Kaggle比賽或者繼續練手強化。

A:正常均可以。普通機器學習的瓶頸在特徵工程,不是跑算法。筆記本的話無腦推薦MBP,預算少的能夠考慮windows筆記本,不少選擇,Dell、xps1三、xps15...通常推薦macbook或者xps。

深度學習,cpu能夠跑簡單的,複雜的通常不在筆記本上跑...會爆炸。通常深度學習要麼臺式,要麼遠程機器上登錄跑。

Q:data[['Disbursed']]和data['Disbursed']的區別。data是一個dataframe.Disbersed是key。好比這樣寫,data['Disbursed'].apply(lambda x: sum(pd.isnull(x))) 就會報錯TypeError: 'bool' object is not iterable。寫成data[['Disbursed']].apply(lambda x: sum(pd.isnull(x))),就對了,這兩個有什麼不一樣的?

A:在dataframe裏,Disbursed被稱爲index。用一個[]的意思是取出一列數據,出現嵌套的時候,通常是要同時取出多列數據。

Q:預習中,講義卻是不難。但在操做中,很難記住相關函數,助教有什麼好的建議嗎?

A:相關函數所有一下記住是不太現實,可是要掌握基本的調用方式,不少函數都是相似的,包括參數的個數等等。另外,要養成查手冊的習慣。不少函數記住函數名,去手冊查具體須要喂什麼參數,一些經常使用的函數,用多了,天然會記住了。

Q: Cumsum是什麼意思,助教能幫忙解釋一下嗎?cumprod呢?

A:樣本累計和,累計積.假如你有一列數據:1,2,3,4,5。cumsum以後就獲得1,3,6,10,15,就是一個一個累計加和,cumprod就是一個挨着一個乘,跟cumsum一個意思,只不過就是加變成乘。

Q:在可視化預習資料中。y = stats.norm.pdf(x,0,1),pdf. 括號中。0 ,1 表明什麼,pdf是什麼意思?什麼的縮寫?

A:是樣本均值和標準差,正態分佈樣本,PDF而言,僅指機率密度函數,Probability Distribution function。

Q:爲何在python中: 好比開方會用 np.sqrt. 畫圖會用 plt.plot ; 老是加個前綴。 爲何不像Matlab那樣直接用 sqrt、plot ?

A:Python中數學運算,大多采用numpy 模塊中封裝的函數,相似的還有其餘畫圖函數,都是定義在對應模塊中。而Python的引用方式是:模塊名或別名.函數名,此外,內建函數是能夠直接以函數名調用的,好比sorted

助教分享:提問的藝術

網址:
wiki.fast.ai/index.php/H…

提問的內容儘可能包含:

  1. 你爲了解決這個問題,你是作了哪些操做?你但願這些操做是什麼效果和實際的效果是什麼?
  2. 你猜想問題的根源是什麼,以及你認爲解決該問題可能須要如何作?
  3. 請告知你的基本電腦環境:如什麼系統?在雲平臺?庫版本等~
  4. 若是你的操做步驟不一樣於課程給的notebook模板,請強調出來~
  5. 你收到的報錯信息(很重要!)
  6. 若是能夠,請截圖!
  7. 若是和課程中返回的操做結果不一致,請指出來~
  8. 你已經解決的部分問題是怎麼作的?如你重啓了電腦?重啓了kernal?
  9. 你發覺到某些可行的解決方案,能夠貼出來,如來自csdn、簡書等~

上面的這個是數據科學家大牛提供的一個「提問說明」,同志們儘可能參照的去提問就行了,你說的越清楚,其餘人就會越明白。否則只有遇到過徹底同樣問題的人才清楚你在說什麼……其實著名的 stackoverflow.com 上記得也有個相似的提問說明,不過就懶得找了,基本相似。

助教分享:「上下求索」的技能

說白了就是本身尋找答案的能力,再說白了,就是活用百度和google搜索。

首先心中記得這樣一個真理:「理論上,我遇到的幾乎任何問題,均可以在網上找到寫有答案的網頁。」

因此用百度的時候,搜索:關鍵詞(如python print 區別),或者直接把報錯信息(通常是含有error的)貼上去。

不過 google老是對英文會有更好更相關的搜索結果,你會發現輸入相關英文關鍵詞,會獲得更多的相關答案和評論。

最後,再說一句:我常常遇到一些報錯信息不知道什麼意思或者不知道怎麼解決的時候,百度沒找到答案,而google上搜索,竟然就輕鬆找到了一大堆相關信息,甚至也有人問了和我如出一轍的問題。

Q:感受以前本身在網上看視頻仍是看得多作的少,怎麼進一步提升?

A:學Python就一個祕訣——用就好,多測試,不要怕。基於測試進行學習,同時完成做業。

原本我也是嘴巴選手,爲了完成一個比賽,3天寫了幾千行代碼,也看了幾千行別人的代碼,而後我也成了革命鬥士。拿起鍵盤就是幹!要帶着目標去學習,而不是迷失在知識的海洋裏面。由於有的東西可能永遠用不到。

另外,我我的的一點經驗,要想提升,必定要抱團,和優秀的人抱團!

這就是稀牛的課程有別於其餘培訓機構的地方,它有助教和雲練習平臺。但願這門課帶你們將整個數據科學的工做走一輪,給你們帶來一點感受。

瞭解更多click.aliyun.com/m/34635/

相關文章
相關標籤/搜索