豬哥學習羣直播第一期：人工智能在銀行電信企業中的應用

時間 2019-12-17

標籤學習直播一期人工智能電信企業應用简体版

原文原文鏈接

一年前豬哥在建學習羣的時候就說過要邀請企業大佬來羣直播，中間由於不少事情給耽擱了，可是一直記在內心，昨天終於完成第一期直播，下面的內容是整理後的文章。python

關於直播使用的微信機器人項目豬哥後面也會單獨出一個教程寫一下，並給出源碼供你們學習和使用！mysql

本次直播精華豬哥都整理在一份XMind文件中，文末會給出連接！git

1、直播流程

這是我們羣的第一期直播，在直播完成後會有一個關於直播質量的問卷調查，但願你們直播完填寫一下，一塊兒努力漸漸提升咱們的羣直播質量！程序員

下圖是本次圖文直播的流程，給你們40秒時間看一下。
redis

2、主講人介紹

主講人：楊美紅，工做十年，主要從事數據分析挖掘和人工智能方向，如下爲詳細工做履歷：算法

2009年開始工做，作運營商營收軟件研發。
2011年開始到國家質檢總局作進出口數據收集平臺化，對數據進行挖掘分析和情報自動化彙總處理。
2015年加入亞信和品友聯合控股的運營商大數據團隊，主要作數據挖掘和廣告數據投放調優。
2018年加入建行金融科技公司北京事業羣，作人工智能平臺化。

豬哥爲何會邀請楊美紅做爲我們羣的第一期主講人，幾個月前在一個號主羣看到他發的一篇文章：人工智能的方向思考，通常寫這種文章都須要實際的人工智能工做經歷而且有很寬的領域知識才行，因此豬哥就想邀請他來給你們作一期直播。spring

3、銀行人工智能分類

目前銀行認爲的人工智能一般分爲：數據智能、感知智能、認知智能。sql

1.認知智能

其中認知智能分爲：天然語言處理、知識圖譜。docker

天然語言處理：語義理解、實體識別、情感分類、語法分析、詞法分析、規則模型
知識圖譜：信息抽取、知識推理、知識表示、知識構建、圖搜索、知識圖譜

2.感知智能

感知智能分爲語音識別、圖像識別、視頻識別、生物特徵識別、機器人學、VR。微信

語音識別：語音輸入、聲紋識別、人機交互、降噪
圖像識別：二維碼、ORC、圖像切割、圖像搜索
視頻識別：物體識別、肢體識別、三維成像、場景識別
生物特徵識別：人臉、指紋、虹膜、指靜脈
機器人學：傳感器、計算機硬件、強化學習、過程控制
VR ：虛擬現實、加強現實

3.數據智能

數據智能包含：大數據處理與分析、機器學習算法、深度學習算法。

大數據處理與分析：數據採集、數據存儲、數據計算、數據分析、數據服務、數據管理
機器學習算法：迴歸、決策樹、SVM、貝葉斯、時間序列、聚類算法
深度學習算法：CNN、RNN

4、應用在哪些方面

企業中用到的統計學習、數據挖掘、機器學習。

統計學習目前來講，仍然是主流的，簡單易用，效果直接粗暴。
同時企業由於和我的應用的頻度、廣度都有差別，因此企業會平臺化，這樣對開發的難度、維護難度、設備資源利用率都有較好的提高。（好比開發模板、參考模型、參考算法，這些都整合後，比我的的開發要容易）

目前本人瞭解到的銀行類和電信有：

銀行類：獲客營銷、合規風控、產品服務、運維經營、住房租賃、普惠金融、智慧城市、政務服務 …智能反欺詐…智能客服
電信類：互聯網廣告推薦、電商類反做弊、反薅羊毛、人羣流量監控、區域擁堵預測、交通調控。

數據挖掘：電信運營商、程序化廣告，目前主流技術仍然是spark+hadoop+yarn模式

機器學習：尤爲是結構化數據的，基本上都是hadoop+spark

5、用到了哪些技術

能夠把使用到的技術分紅四大類：

主流的計算框架：SparkMLlib、TensorFlow、Caffe、pySpark、pyTorch等
軟件：ApacheTomcat 、python、 docker、springCloud、kubernetes、mysql、redis
輔助軟件：jenkins、git、gerrit
數據集成：Hadoop、Kylin

這些技術不是孤立的，好多都是多個互相協做完成產品功能。如政務服務：要求有市民提交圖像的識別、提交文字的情感和反恐等識別，提交圖像又多是丟了東西，也多是小孩走失，處理優先級是不同的。如A計算框架可能對動物識別比較好，B計算框架可能對靜物識別好，C框架可能對人臉識別比較好，這時候就可能須要三個框架結合，採起合理的順序進行銜接，才能讓政務的處理看起來更合理，更智能。

6、具體的案例

由於本人主要從事電信和銀行業相關，因此具體的案例就從這兩個行業講講吧！

1.電信業人工智能

目前落地的經歷過的有 廣告推薦、電商類反做弊、反薅羊毛、人羣流量監控（地理位置）、犯罪追蹤(經過地理位置時序變遷、上網記錄、聯繫人知識圖譜等手段，可以快速的篩選出犯罪嫌疑人，重點監控)。

電信運營商數據和阿里、騰訊等數據的異同點：

同：都可以對一我的的長久的、持續的數據進行處理。
異：阿里的數據偏向於購物、目前多了釘釘，有職場社交；騰訊的偏社交、遊戲、京東購物；電信運營商的2者兼有，可是顆粒度不夠細，三者各有優缺點。

2.銀行業人工智能

首先說，在大多數公司，所謂的算法，是經過程序體現的，這最基本的就要求團隊有三類人：

有須要瞭解的業務，業務人員對需求的描述；
建模人員對算法和模型使用的規劃；
開發人員進行開發、對反饋進行分析有調優。

國內銀行業的性質，決定了它對人工智能的應用、實現主要仍是體如今銀行相關、少數是政府類項目相關。跨界的比較少。

政務服務：採用tensorflow、caffe、 keras 作圖片識別和處理方向的服務，語言情感的判斷、涉黃涉恐的判斷。
反欺詐：對信用卡的開卡、各類銀行卡的盜刷行爲進行監控。
普惠金融：根據人羣資料的劃分，進行貸款額度管理與控制。
運維監控：銀行業特殊的是監控方面，和安防比較像，視頻監控（生產機房監控、數據中心監控）、進出記錄監控（如明顯異常出入機房）、操做記錄監控（如某個帳號大量的、突發的不合理操做進行預警）。

7、建議掌握的技術

若是你對人工智能確實感興趣，那我的給你些實際的建議，重點分爲2個部分：大數據和人工智能。

1.大數據

大數據方面作好工做的要求：

對sql的理解。
可以對產品需求有必定的熟悉，經過多個途徑、手段設計實現方式。
對算法有必定了解。（如統計類的貝葉斯之類，是作什麼的，大概在什麼場景，廣告類的lookalike 大致是怎麼作到的）對其餘大廠要求的算法，leedcode能夠刷到。

2.人工智能

精通一個、基礎紮實、適應快，均可以做爲本身的出發點，團隊裏確定是算法的最重要，最好知曉一些，其餘方向也須要了解，畢竟只有算法的話，算是有了添加劑，作成什麼樣的食品還得靠全體努力。

銀行和電信業都是對高新技術不算太敏感的行業，因此我的說的可能也是比較陳舊，但願你們理解，但願可以拋轉引玉，對你們有幫助，謝謝。

8、問題解答

在主講人開始以前，豬哥在朋友圈徵集了一些問題，大佬都一一爲你們耐心解答。

豬哥整理了一下，將問題歸爲三類：技術類、職業類、我的類

1.技術類

問：深度學習優化調參
答：目前來講，咱們這邊的同事也主要是憑感受和常識：大概正確率要到多少，比較流行的是訓練多少輪。好比60輪。

問：CNN
答：抱歉，這個我接觸的也很少，建議網上搜索學習。

問：圖像和模式識別
答：目前主流的框架有TensorFlow、Caffe、包裝過的Keras，均可以根據官方教程學入門的。深刻的話，涉及算法層面的有能力修改的人仍是比較少，主要仍是樣本和調參要玩的好一些，容易工程實現。

問：圖像多示例學習
答：能夠對標註數據進行部分改變，或者標註後的分類進行修改，而後從新訓練或者累積訓練。或者採用不一樣的算法框架，添加多個判斷邏輯，進行區分。好比第一部分辨動物和植物，第二步分辨人和其餘動物。

問：座標和編碼規則，在分子結構的數學表示上給建議，能夠包含更多的信息
答：抱歉，這個方向我沒涉及過，這塊我不能給出建議

問：GBDT的形狀
答：交個底，我對算法的研究基本上是0，只停留在知曉的水平。 gbdt 目前主流的是殘差收斂、梯度降低。都是迭代。形狀這塊不懂。樣本和特徵選擇，根據經驗來講，儘可能選擇比較均衡的樣本，這樣訓練的結果效果好，也容易解釋。

問：多少樣本才能使用統計學習
答：這個沒有特別要求，幾百個的我都見過，並且貌似結果還不錯，幾十億的也有，主要仍是看你的目標和數據基礎，若是隻有幾千幾百條，那就只能湊合用，數據多了再改進。

問：計算機視覺的設備是否是特別貴
答：有特別貴的，也有便宜的，若是你是本身學習用，不建議本身急匆匆的買，能夠在百度、阿里的雲平臺上租用，本身買的話，建議買2-4千的顯卡就行，目前主流的是Nvidia卡，安裝cuda之類軟件，可以對Tensorflow之類軟件進行支持就好

問：軟件
答：開源的練手就能夠，國內的幾大廠，都有本身的一套，可是基本都基於開源。

2.職業類

問：爬蟲方向
答：往NLP和數據智能方向結合試試呢，爬蟲的結果處理，若是添加了NLP方向，仍是有不少需求的。

問：數據分析前景
答：廣闊，可是錢方面千差萬別，就像產品經理同樣，之後是常備，可是薪資水平能差幾條街

問：人工智能
答：若是你目前是應屆生，仍是建議讀研。或者說其餘專業的應屆生，都建議讀研，這幾年的學位要求一直在提升，本科生在不少方向是吃虧的，2年半的時間換來後續可能10年的回報，值得的。NLP本科目前來講，比較吃虧，若是條件許可，仍是儘可能讀個研究生。

問：學習人工智能須要對相應的數學有深刻的研究嗎？仍是說了解數學思想就好了？
答：若是你能力能夠，儘可能學的深刻一些，半桶水和高手仍是不同的。

問：深刻數據挖掘
答：算法方向，建議多看國際上最新的論文和玩法。業務上，能夠擴展廣度和深度，如多參加DataFun社區組織的交流，看看你們都是怎麼玩，有想法了及時試試。（我不是給DataFun作廣告哈，他們不認識個人）

3.我的類

問：大數、線性代數、機率論
答：能學的好的話，爲何不呢？

問：沒讀過大學來學ai會不會費勁
答：看工做性質吧，若是是深刻研究的，數學功底差的話，確實會費勁，論文和數學公式看不懂。若是調參，不必定費勁。

問：學習算法
答：看你本身的興趣，只要喜歡，怎麼均可以。

問：學習路線
答：因人而異吧，我的以爲，發揮你現有的長處，先進入這個行業，而後再擴展比較靠譜。

問：系統性的自學
答：目前來講，建議先學下吳恩達視頻，有必定了解後，本身再擴展。看看tensorflow之類框架的官方介紹，再搜搜學習筆記，你們目前來講，大牛少，都是探索。入行以後，慢慢的接觸，就能碰到大牛了。

問：程序員進階，架構師 ：
答：我的以爲路線大同小異：首先，會寫局部代碼，寫的乾淨漂亮，邏輯清晰。邏輯清晰這個很重要，由於你走到架構或者leader崗，須要對總體邏輯有清醒的認識，否則分配工做和架構設計，都會有不夠健壯的問題。有點變更就可能改架構，太要命。
其次，多觀察你身邊的技術大拿，或者說架構師是怎麼作的，他的成功和失敗的點，本身作的話，怎麼繼承和避免。同時注意你的leader是怎麼作的，包括工做的拆分，人員的進度監控，出問題後的處理。不要本身埋頭於代碼，也不要以爲領導都是豬。他山之石能夠攻玉，若是本身沒經驗，就學別人的經驗，這是最簡單有效的辦法。