一年前豬哥在建學習羣的時候就說過要邀請企業大佬來羣直播,中間由於不少事情給耽擱了,可是一直記在內心,昨天終於完成第一期直播,下面的內容是整理後的文章。python
關於直播使用的微信機器人項目豬哥後面也會單獨出一個教程寫一下,並給出源碼供你們學習和使用!mysql
本次直播精華豬哥都整理在一份XMind文件中,文末會給出連接!git
這是我們羣的第一期直播,在直播完成後會有一個關於直播質量的問卷調查,但願你們直播完填寫一下,一塊兒努力漸漸提升咱們的羣直播質量!程序員
下圖是本次圖文直播的流程,給你們40秒時間看一下。
redis
主講人:楊美紅,工做十年,主要從事數據分析挖掘和人工智能方向,如下爲詳細工做履歷:算法
豬哥爲何會邀請楊美紅做爲我們羣的第一期主講人,幾個月前在一個號主羣看到他發的一篇文章:人工智能的方向思考,通常寫這種文章都須要實際的人工智能工做經歷而且有很寬的領域知識才行,因此豬哥就想邀請他來給你們作一期直播。spring
目前銀行認爲的人工智能一般分爲:數據智能、感知智能、認知智能。sql
其中認知智能分爲:天然語言處理、知識圖譜。docker
感知智能分爲 語音識別、圖像識別、視頻識別、生物特徵識別、機器人學、VR。微信
數據智能包含:大數據處理與分析、機器學習算法、深度學習算法。
企業中用到的統計學習、數據挖掘、機器學習。
統計學習目前來講,仍然是主流的,簡單易用,效果直接粗暴。
同時企業由於和我的應用的頻度、廣度都有差別,因此企業會平臺化,這樣對開發的難度、維護難度、設備資源利用率都有較好的提高。(好比開發模板、參考模型、參考算法 ,這些都整合後,比我的的開發要容易)
目前本人瞭解到的銀行類和電信有:
數據挖掘:電信運營商、程序化廣告, 目前主流技術仍然是spark+hadoop+yarn模式
機器學習:尤爲是結構化數據的,基本上都是hadoop+spark
能夠把使用到的技術分紅四大類:
這些技術不是孤立的,好多都是多個互相協做完成產品功能。如政務服務:要求有市民提交圖像的識別、提交文字的情感和反恐等識別,提交圖像又多是丟了東西,也多是小孩走失,處理優先級是不同的。 如A計算框架可能對動物識別比較好,B計算框架可能對靜物識別好,C框架可能對人臉識別比較好,這時候就可能須要三個框架結合,採起合理的順序進行銜接,才能讓政務的處理看起來更合理,更智能。
由於本人主要從事電信和銀行業相關,因此具體的案例就從這兩個行業講講吧!
目前落地的經歷過的有 廣告推薦 、電商類反做弊、反薅羊毛、人羣流量監控(地理位置)、犯罪追蹤(經過地理位置時序變遷、上網記錄、聯繫人知識圖譜 等手段,可以快速的篩選出犯罪嫌疑人,重點監控)。
電信運營商數據和阿里、騰訊等數據的異同點:
首先說,在大多數公司,所謂的算法,是經過程序體現的,這最基本的就要求團隊有三類人:
國內銀行業的性質,決定了它對人工智能的應用、實現主要仍是體如今銀行相關、少數是政府類項目相關。跨界的比較少。
若是你對人工智能確實感興趣,那我的給你些實際的建議,重點分爲2個部分:大數據和人工智能。
大數據方面作好工做的要求:
精通一個 、基礎紮實、適應快,均可以做爲本身的出發點,團隊裏確定是算法的最重要,最好知曉一些,其餘方向也須要了解,畢竟只有算法的話,算是有了添加劑,作成什麼樣的食品還得靠全體努力。
銀行和電信業都是對高新技術不算太敏感的行業,因此我的說的可能也是比較陳舊,但願你們理解,但願可以拋轉引玉,對你們有幫助,謝謝。
在主講人開始以前,豬哥在朋友圈徵集了一些問題,大佬都一一爲你們耐心解答。
豬哥整理了一下,將問題歸爲三類:技術類、職業類、我的類
問:深度學習優化調參
答:目前來講,咱們這邊的同事也主要是憑感受和常識:大概正確率要到多少,比較流行的是訓練多少輪。好比60輪。
問:CNN
答:抱歉,這個我接觸的也很少,建議網上搜索學習。
問:圖像和模式識別
答:目前主流的框架有TensorFlow、Caffe、包裝過的Keras,均可以根據官方教程學入門的。深刻的話,涉及算法層面的有能力修改的人仍是比較少,主要仍是樣本和調參要玩的好一些,容易工程實現。
問:圖像多示例學習
答:能夠對標註數據進行部分改變,或者標註後的分類進行修改,而後從新訓練或者累積訓練。或者採用不一樣的算法框架,添加多個判斷邏輯,進行區分。好比第一部分辨動物和植物,第二步分辨 人和其餘動物。
問:座標和編碼規則,在分子結構的數學表示上給建議,能夠包含更多的信息
答:抱歉,這個方向我沒涉及過,這塊我不能給出建議
問:GBDT的形狀
答:交個底,我對算法的研究基本上是0,只停留在知曉的水平。 gbdt 目前主流的是殘差收斂、梯度降低。 都是迭代。形狀這塊不懂。 樣本和特徵選擇,根據經驗來講,儘可能選擇比較均衡的樣本,這樣訓練的結果效果好,也容易解釋。
問:多少樣本才能使用統計學習
答:這個沒有特別要求,幾百個的我都見過,並且貌似結果還不錯,幾十億的也有,主要仍是看你的目標和數據基礎,若是隻有幾千幾百條,那就只能湊合用,數據多了再改進。
問:計算機視覺的設備是否是特別貴
答:有特別貴的,也有便宜的,若是你是本身學習用,不建議本身急匆匆的買,能夠在百度、阿里的雲平臺上租用,本身買的話,建議買2-4千的顯卡就行,目前主流的是Nvidia卡,安裝cuda之類軟件,可以對Tensorflow之類軟件進行支持就好
問:軟件
答:開源的練手就能夠,國內的幾大廠,都有本身的一套,可是基本都基於開源。
問:爬蟲方向
答:往NLP和數據智能方向結合試試呢,爬蟲的結果處理,若是添加了NLP方向,仍是有不少需求的。
問:數據分析前景
答:廣闊,可是錢方面千差萬別,就像產品經理同樣,之後是常備,可是薪資水平能差幾條街
問:人工智能
答:若是你目前是應屆生,仍是建議讀研。或者說其餘專業的應屆生,都建議讀研,這幾年的學位要求一直在提升,本科生在不少方向是吃虧的,2年半的時間換來後續可能10年的回報,值得的。NLP本科目前來講,比較吃虧,若是條件許可,仍是儘可能讀個研究生。
問:學習人工智能須要對相應的數學有深刻的研究嗎?仍是說了解數學思想就好了?
答:若是你能力能夠,儘可能學的深刻一些,半桶水和高手仍是不同的。
問:深刻數據挖掘
答:算法方向,建議多看國際上最新的論文和玩法。業務上,能夠擴展廣度和深度,如多參加DataFun社區組織的交流,看看你們都是怎麼玩,有想法了及時試試。(我不是給DataFun作廣告哈,他們不認識個人)
問:大數、線性代數、機率論
答:能學的好的話,爲何不呢?
問:沒讀過大學來學ai會不會費勁
答:看工做性質吧,若是是深刻研究的,數學功底差的話,確實會費勁,論文和數學公式看不懂。若是調參,不必定費勁。
問:學習算法
答:看你本身的興趣,只要喜歡,怎麼均可以。
問:學習路線
答:因人而異吧,我的以爲,發揮你現有的長處,先進入這個行業,而後再擴展 比較靠譜。
問:系統性的自學
答:目前來講,建議先學下吳恩達視頻,有必定了解後,本身再擴展。看看tensorflow之類框架的官方介紹,再搜搜學習筆記,你們目前來講,大牛少,都是探索。入行以後,慢慢的接觸,就能碰到大牛了。
問:程序員進階,架構師 :
答:我的以爲路線大同小異:首先,會寫局部代碼,寫的乾淨漂亮,邏輯清晰。 邏輯清晰這個很重要,由於你走到架構或者leader崗,須要對總體邏輯有清醒的認識,否則分配工做和架構設計,都會有不夠健壯的問題。有點變更就可能改架構,太要命。
其次,多觀察你身邊的技術大拿,或者說架構師是怎麼作的,他的成功和失敗的點,本身作的話,怎麼繼承和避免。同時注意你的leader是怎麼作的,包括工做的拆分,人員的進度監控,出問題後的處理。不要本身埋頭於代碼,也不要以爲領導都是豬。他山之石能夠攻玉,若是本身沒經驗,就學別人的經驗,這是最簡單有效的辦法。
直播結束後豬哥收集了一些同窗的反饋和建議
豬哥總結下同窗們的反饋意見:
關於下次直播的主題根據你們投票結果是:數據分析,因此就定爲數據分析吧,數據分析的主講人豬哥內心早已有了人選,是一位很是牛逼的大佬,但願能邀請到他!
最後豬哥也將此次直播的精華內容整理在一個XMind文件中(連接:https://pan.baidu.com/s/1KR99u1hvmgBIQIwwtcBmEA 密碼:3yxw),做爲羣福利提早發給你們,須要你們自行去下載XMind軟件!