現在,大半年過去了,終於在這收穫季節,迎來了全球第一位「數據科學家」納米學位畢業生,他不只克服了全英文教學的語言門檻,還完成了兩個學期的挑戰,他就是來自中國的優達學員——Kyle Chen,恭喜他經過優達揚帆起航!前端
今天,他將現身說法,講講他是如何沉迷學習,沒法自拔,成爲全球首位畢業生的心路歷程。linux
優達學員說git
學員姓名: Kyle Chengithub
學員職業(offer): SA Developer(自動化研發工程師)算法
就任公司: MBCloud數組
座右銘,興趣愛好等: 平時沒事就多擼碼, 看看書, 聽聽歌, 寫寫博客. 除了帶娃, 就是學習, 碼字.微信
Github: github.com/kylechenoO機器學習
Blog: hacking-linux.com學習
微信公衆號: AINailN測試
你們好, 我是 Kyle Chen, 目前就任於深圳某銀行, 已從事自動化研發方向的工做八年. 考慮到工做上的須要, 以及自身興趣點所在, 於今年二月底, 開始嘗試往 AI 方向轉型.
數據科學, 人工智能, 機器學習, 深度學習, 乍一聽名字, 高端, 大氣. 但是當你深刻進去學了以後, 會發現其中的統計學, 機率論, 微積分, 任何一個部分的知識點提取出來, 都會是一門比較大的學科. 看到這裏, 請不要懼怕, 咱們將其展開仔細看看, 也許並無你想一想中的那麼難.
數據科學, 是一門比較泛的學科. 當數據科學家拿到一份最新的數據時, 第一時間須要考慮對數據的清洗, 在這一步, 要對數據作一些比較基本的處理, 例如某個特徵值空缺太多, 咱們能夠考慮將這個特徵值給drop掉, 或者考慮使用中值/均值來作替換. 而後, 接下來咱們須要對數據進行一系列的預處理, 在這一步, 咱們會對一些異常數據進行篩查, 通過再三確認後, 將其剔除或者留下必定比例的異常值. 綜合上面兩步, 咱們已經獲得了一份'乾淨'的數據.
在預處理中, 咱們還須要注意數據集中的數據分佈, 固然, 將分佈畫出來的同時, 也能夠對異常數據進行一系列的篩選(例如, 圖片的尺寸, 大小, 當其尺寸相對於其它圖片的尺寸差異太大時, 能夠考慮將其從數據集中剔除. ). 若是須要的話, 在這裏也能夠對數據進行標準化, 正則化處理. 接下來, 須要對數據集進行拆分, 將其分爲訓練集, 驗證集, 測試集, 能夠參考比例(訓練集:驗證集:測試集, 6:2:2).
接下來, 正常狀況下, 若是特徵值過多, 可能會先對特徵值作個篩選, 這個過程就叫作特徵工程. 篩選的同時, 決定了咱們模型的輸入數據. 而後, 對項目模型進行選取, 在經驗不足, 或者仍是小白的狀況下, 咱們能夠優先考慮在一些已有模型上面作改進, 這個過程就叫作遷移學習. 使用遷移學習, 咱們能夠直接將咱們的輸入/輸出部分像管道同樣給套上去, 也能夠將其原有遷移模型中的部分層解凍, 進行fine tune.
這中間涉及到很大一部分調參的工做, 調參調的好很差, 每每會直接影響到模型的精度, 若是你是新手的話, 建議在這裏多嘗試一些參數組合(例如learning rate, optimizer, 等等.). 在肯定好模型後, 咱們還須要對模型進行評估驗證, 最簡單粗暴的評分標準能夠直接選擇準確率, 錯誤率. 也能夠將一些樣本隨機抽出來, 對其進行抽查與展示.
上面, 只是簡單的介紹瞭如下使用機器學習/深度學習模型來作數據預測的一部分過程. 固然, 實際工做環境中, 每每不會這麼簡單. 可能會須要將其中的某些模塊(例如, 模型部分, 後臺接口, 前端展示)給拆分出來, 以RestFul接口或者其餘形式來對其進行調用與輸出. 固然, 這是軟件工程中的一些問題.
在修完「數據科學家」納米學位以後, 不僅僅是對數據的處理方式, 模型處理, 接口設計, 有了個比較詳細的瞭解, 也加深了對總體AI行業的理解. 機器學習, 深度學習, 各類算法的研發只能活在科研領域, 具體如何落地, 實打實的去跑, 還得看數據科學家如何將其與現有數據與業務邏輯相融合, 最終才能給予決策層準確的指導.
固然, 這裏的部分工做會跟你所在的行業呈現比較大的關聯性. 仍是那句話, 想要作什麼事情, 就把它作好, 花點時間投入進去, 在一個行業中沉澱下來, 你的經驗與技術相融合, 總會有意想不到的驚喜.
最後,優達菌祝你們也能像本文做者,在優達學業有成,在事業上揚帆起航!
每日一圖↓↓(漢化:新浪微博@愛生活愛可可)