簡介:人工智能這幾年發展的如火如荼,不只在計算機視覺和天然語言處理領域發生了翻天覆地的變革,在其餘領域也掀起了技術革新的浪潮。不管是在新業務上的嘗試,仍是對舊有業務對改造升級,AI 這個奔涌了 60 多年的「後浪」,正潛移默化的影響着咱們傳統的技術架構觀念。算法
人工智能這幾年發展的如火如荼,不只在計算機視覺和天然語言處理領域發生了翻天覆地的變革,在其餘領域也掀起了技術革新的浪潮。不管是在新業務上的嘗試,仍是對舊有業務對改造升級,AI 這個奔涌了 60 多年的「後浪」,正潛移默化的影響着咱們傳統的技術架構觀念。架構
AI 架構(尤爲是以機器學習和深度學習爲表明的架構方案)已經成爲咱們技術架構選型中的一個新的選項。框架
你是否須要 AI 架構的解決方案?AI 架構選型的主要依據是什麼?這是咱們今天主要討論的問題。機器學習
咱們先來看一個典型的 AI 架構:分佈式
總結一下,通過數據採集、加工處理、特徵選擇、數據預處理、模型訓練、模型評估、模型應用幾個環節,數據跨過業務系統、數據平臺、算法模型三個系統,造成一個閉環,最終又應用到業務系統中,這就構成了整個 AI 架構的核心。函數
是否須要 AI 架構,如何衡量這套技術架構方案的可行性?我認爲,主要是看如下三個要素。佈局
咱們討論架構的可行性,是否適合業務及業務發展是第一衡量準則,AI 架構也不例外。學習
回顧那些經典的、已經普遍應用的機器學習場景,好比推薦、搜索、廣告等,這些場景都具備這樣的特色:場景相對封閉、目標單1、可控。優化
究其緣由,不管算法模型多麼複雜,其最終都要落實到損失函數上的,然後者通常都是單目標、單優化任務。或追求極值(損失最小化)、或達到某種對抗上的平衡(好比GAN)。在這種狀況下,不管業務如何建模,仍是要落地到算法模型和損失函數的,最終也就限制了場景和目標上的單一。人工智能
所以,看一個業務是否適合AI架構,就要先看這個業務場景目標是否單1、可控。或通過業務建模和架構拆解後,每一個環節的場景是否單一。
舉個例子,同程藝龍酒店系統爲酒店商家提供了上傳酒店圖片的功能,在這個場景下,除了要審查圖片的合法性,還要給圖片打上分類標籤,如「大堂」、「前臺」、「客房」、「周邊」等。爲了能正常使用AI架構,就必須對場景內的各目標進行拆分,訓練不一樣的分類器。具體流程以下:
其中,第二、三、4步涉及到多個圖片分類器,每一個分類器的目標不一樣,所須要的訓練數據也不一樣。對於輸入的同一個樣本圖片,每一個分類器完成本身的職能,目標單一可控。對於一些不經過的樣本,可能還涉及到人工干預。最後合法的圖片存入系統。
從業務必要性上來講,也並非全部業務場景都須要AI架構。算法模型是對事物的精確模擬和抽象,複雜度也是比較高的。但可能有時咱們業務上並不須要如此精細的控制。好比有時一個簡單的if...else...就解決了問題;複雜點的可能會設計幾種「策略」,而後由業務專家針對每種狀況進行配置;再複雜的可能還會考慮BI的方案:收集數據,而後展開多維度的分析,最後由分析師連同業務專家獲得某種規律性的結論,再內置到系統裏,效果可能也不錯。
再舉個酒店分銷調價的例子,在將酒店分銷給代理售賣前,通常會在底價基礎上對產品賣價進行干預,調整必定的點數(百分比),保證銷量的同時,最大化收益。
一開始,可能僅僅是一個固定的比率(好比加價6%)。隨着業務發展,設計了一系列策略,好比針對「是否獨家」、「是否熱門」2維度將酒店劃分到4個象限裏,對「獨家-熱門」酒店實施一個較高的調價比率,而對「非獨家-冷門」酒店實施一個較低的比率。結果收益提升了一大截,效果不錯。
然後,業務人員但願施行更加精細的控制,因而對酒店的星級、地區、商圈、獨家、房型等維度進行了更爲精細的劃分,並結合歷史數據進行統計分析,對各類結果施以不一樣的調價比率。產量和收益又進一步提高了。
這時若是各業務方都比較滿意、成本也不高,系統複雜度也不高,那就沒必有再考慮更爲精細、智能的AI架構了。引入AI,本質上,仍是要帶來效率、體驗或準確性的提高,同時平衡成本和收益,控制系統複雜度。若是不能帶來這些,那就要從新審視咱們的方案了。
固然,有時咱們也會考慮架構的擴展性和業務的發展,預留一些設計上的「開閉」空間。「策略模式」這時也許是個不錯的選擇。對於系統的默認策略,採用基於人工的、配置的方案,同時保留策略擴展接口,隨着未來業務要求的增高,再引入「基於AI的策略」。這樣即控制了當前的成本,又平衡了系統的擴展性。
數據決定了機器學習的上限,而算法和模型只是逼近這個上限而已。
數據的採集和獲取一般須要很長時間,創建充分、全面的數據倉庫,更須要長時間的積累和打磨,所以,數據在任何一個公司都是寶貴的資產,不願輕易送出。而一個算法模型的成功與否,關鍵看數據和特徵。所以,一套 AI 架構的解決方案,最終可否取得好的效果,關鍵看是否已經採集到了足夠、充分的數據。
這些數據來源通常包括:自有系統採集、互聯網公開數據收集(或爬取)、外購等。
自有系統採集是最多見的方案,業務系統自身產生的數據,通常也更適合業務場景的應用。可這樣的數據珍貴且稀少,因此每每須要公司的決策者提早佈局,早早的開始收集、整理業務數據,建設數據平臺、充實數據倉庫,這樣通過幾個月甚至幾年之後,在真正用到AI架構時,彈藥庫裏已經儲備了充足的「彈藥」了。
互聯網公開的數據爬取也是一個快速且免費的方法,但在茫茫大海中找到適合本身的數據並不容易,且由於你能拿到、別人也能拿到,所以很難拉開和其餘競對公司的差別。
外購通常要花費鉅額費用,且質量良莠不齊,通常是互聯網公司最後不得已的方案。
在數據獲取成本高、難度大、積攢時間久這樣的前提下,而場景又適合使用 AI 架構,面對數據匱乏,是否是就沒有辦法了呢?也不盡然,咱們仍是有些替代方案的。
衆所周知,訓練過程是一個典型的「計算密集型任務」,沒有強大的算力,是難以支撐算法模型的訓練和研究的。作機器學習的計算平臺,GPU 幾乎是標配,其訓練時間比 CPU 通常能縮短 5 倍以上。
目前,主要有自建和租賃雲平臺兩種途徑獲取。若是「不差錢」,固然能夠選擇自建,但如今 GPU 升級換代太快,基本一年一換。對於作機器學習的 GPU 來講,運算速度是關鍵,極可能花了大價錢搭建的 GPU 集羣,過幾年卻變成了一臺「老爺車」。
租賃雲平臺雖然能夠隨時享受最新 GPU 運算速度帶來的「快感」,但所需花費的精力也很多。不但要詳細對比每家雲平臺提供的服務和成本,還要合理的搭配 CPU和 GPU,作到資源利用最大化。
說了這麼多,提的最多的可能就是「成本」和「收益」這兩個詞了,這也是業務最關心的問題。不管是計算資源仍是系統架構,上一套 AI 架構的解決方案都是須要投入至關大的成本的,若是選擇得當,在一個合適的場景下,AI 也是能帶來至關不錯的收益;但若是入不敷出,選擇 AI 架構的解決方案就要慎重了。
最後,技術人員儲備和法律因素也是上AI架構前須要考量的問題,前陣子還發生了國家工信部約談AI換臉應用企業的事件。
AI 是一場浪潮,它不只帶來了新的技術和行業,也給了老系統煥發新生命活力的機會。做爲技術人員,咱們不只要擁抱新技術帶來的挑戰,更要清楚其技術選型的主要因素和背後的風險,這樣才能屹立浪潮之巔。那麼,你是否須要 AI 架構的解決方案呢?