摘要: 導語 近日,阿里雲發佈了智能媒體管理(Intelligent Media Management)服務, 經過離線處理能力關聯受權的雲存儲,提供便捷的海量多媒體數據一鍵分析,並經過該分析過程構建價值元數據,更好支撐內容檢索。算法
導語
近日,阿里雲發佈了智能媒體管理(Intelligent Media Management)服務, 經過離線處理能力關聯受權的雲存儲,提供便捷的海量多媒體數據一鍵分析,並經過該分析過程構建價值元數據,更好支撐內容檢索。數據庫
背景介紹
隨着智能手機的普及、無人機的流行,業界產生了海量的圖片、視頻等多媒體數據;同時,網絡也在飛速發展,特別是4G的推廣,讓這些數據的保存、分享發生了巨大的變化,從而也帶來了媒體數據各行業的新趨勢。咱們親身體驗到通訊方式從短信變成語音,瀏覽內容從文字變成圖片、從JPG靜態圖片變成GIF動態圖片、再到短視頻;從去年開始,直播也火熱起來,成爲一種流行的時尚。這些迅速的變化趨勢,反應了一個共同的特色,就是「交互的信息量越豐富、越實時,用戶越容易被吸引,越會產生新的價值」。
後端
如圖中所示行業,都在利用最新的人工智能(Artificial Intelligence, AI)技術產生新的價值,同時也引入新的需求:安全
手機相冊。它早已不是簡單的圖片備份,iOS經過AI構建人臉相冊、場景標籤、編輯應用,變成吸引客戶的亮點,成爲新的基線。
視頻監控。它再也不只是記錄取證工具,而是利用AI發展爲智慧城市,變成了智慧的眼睛,要管理整個城市的交通訊息。
直播應用。我的分享已不只僅是博客、微博的文本形式,更是轉變爲快速直觀的視頻模式,這背後須要更高、更快的直播內容理解、審覈需求。
數據處理場景需求
對於圖片分享社區應用場景,最基本的功能是提供備份、分享,但這並不能帶來更多的價值。只有提供更多的圖片處理能力,好比主體剪裁、人臉識別、濾鏡功能、風格渲染、視頻合成等數據處理功能,以下圖所示。這些亮點將爲使用者帶來「生活不止眼前的苟且,還有依然在你身邊的美好」回憶,從而讓應用更具吸引力。服務器
內容檢索場景需求
現在的綜藝節目很是火爆,例如跑男、極限挑戰等,每期拍攝的素材量千倍於實際播出量;要在這海量素材中快速掃描、找到爆點,須要至關大的工做量,例如當前的人肉檢索低效率方式須要處理幾周的時間。若是可以基於AI分析語音、人物、場景獲得結構化信息,並索引管理起來,支撐更好的檢索,它將會大大的提升素材的處理效率。網絡
一樣,在線教育等領域,對於老師、演講者的材料、語音、視頻內容,若是可以提供快速的解析索引能力,那麼它將給學習者提供便捷的專場內容描述、快速定位關鍵術語、演講筆記同步提取等亮點。session
客戶痛點分析
要知足上述場景需求,當前應用架構設計時,須要選型不一樣數據處理功能的廠家(包括AI廠家)進行集成、或者自研開發,對於內容檢索,還須要分析場景細節需求,引入數據庫設計和開發。這都須要很好的技術能力,以及開發團隊的支撐,並解決以下的痛點。架構
多廠家管理痛點
框架
圖片應用將數據保存到雲存儲後,要選擇不一樣廠家的AI分析能力,支撐業務和監管的需求。應用一般會在雲服務器(Elastic Compute Service,ECS)上部署AI廠家的軟件包,或者直接調用AI廠家提供的服務,但須要解決以下問題:運維
接口不統一。由於存在多廠家的選型,須要考慮不一樣廠家接口的兼容性。
資源浪費。同一張圖片會被屢次讀取,甚至是傳輸到外部網絡,浪費網絡帶寬,提升使用成本。
無存量數據的低成本批量處理方案。採用廠商的同步處理價格高昂,須要提供存量數據的低成本批量處理方案,接受異步接口返回檢測結果(好比針對存量的OSS桶裏面的全部圖片,進行批量鑑黃)。
複雜元數據管理痛點
智能網盤經過本身的用戶鑑權服務容許客戶登陸,而後採用基礎數據管理把圖片、視頻上傳到雲存儲OSS中。爲了提供人臉分組、標籤分組等搜索功能,須要提供各種元數據管理,定義基於場景的表格式、處理數據庫的異常,它將帶來以下的開發難度:
元數據表設計難度大。針對不一樣的元數據,須要分類設計各種表結構存儲,有至關的技術門檻。
多維度元數據管理有挑戰。須要組合多種元數據,進行多維度查詢處理,存在設計挑戰。
維護元數據的的一致性難題。解決這些元數據在異常場景下的異常處理,是系統級難題。
設計目標
經過上述的場景和痛點分析,智能媒體管理(IMM)服務提取了6個關鍵點做爲設計目標:
海量數據,支撐雲存儲上的海量數據處理。
端雲拉通,可以讓端和雲進行有效的協做。
場景結合,基於場景構建元數據管理便於快速接入。
一鍵處理,簡化配置和使用、提升系統易用性。
智能分析,引入業界領先的處理能力,特別是AI能力。
標準統一,訪問接口統一爲阿里雲的標準。
功能描述
對於雲存儲上的海量數據,經過受權訪問的安全設計,讓數據處理分析服務可以有權限訪問數據,在此之上構建數據智能處理框架,該框架針對離線處理優化設計,同時支持實時處理能力。基於該處理框架,引入了業界領先的數據處理能力,包括各類AI能力。利用離線處理能力關聯受權的雲存儲,能夠提供便捷的存量數據一鍵分析,經過該分析過程構建價值元數據,支撐更好的內容檢索。經過這樣的設計,從而提供以下功能:
普惠AI算法,提供豐富功能。人臉分組、圖片打標、版權、鑑黃等能力。
價值元數據,爲客戶帶來新的增加點。整合價值元數據,提供智能分析搜索。
OFFICE文檔處理,簡化客戶使用。提供典型的OFFICE文件格式轉換,便於移動設備瀏覽辦公文檔。
場景化、一鍵式處理,提升易用性。基於場景模版,結合實時、離線處理引擎,一鍵生成網盤關鍵元數據。
架構介紹
如圖是IMM服務的架構依賴上下文,服務自己的架構分爲2層:處理引擎、元數據索引。
架構依賴上下文
對下依賴阿里雲的對象存儲、文件存儲等服務,經過安全的機制訪問裏面存儲的非結構化數據(例如圖片、視頻),提取價值信息。
對上依賴場景理解,進行封裝,支撐視頻網盤、手機相冊、社交圖庫、家庭監控等圖片、視頻應用場景,爲它們產生新的價值。
處理引擎層
基於阿里雲存儲,就近構建計算框架,該框架支持批量異步處理、準實時同步處理,在一鍵關聯雲存儲(例如,指定Bucket的目錄前綴、指定Bucket的某個對象)後,實現快速的自動數據處理,經過整合業界領先的數據處理算法,處理引擎提供以下功能。
OFFICE文檔格式轉換。支持將OFFICE文檔轉換爲JPG圖片格式,從而更好的支持網盤的文檔預覽功能。
大圖處理。支持將超大的圖片進行切割、縮放處理,友好的支撐相冊、圖庫場景的精細看圖功能。
標籤檢測。經過人工智能技術,識別圖片、視頻中的物品標籤,從而實現機器的制動打標,更好的支撐推薦應用。
人臉檢測。經過人工智能技術,識別圖片、視頻中的人臉,檢測出人臉框,判斷人臉姿式、年齡、性別等屬性。
元數據索引層
基於處理引擎提供的功能,經過對場景的深刻理解和梳理,IMM封裝了場景的元數據設計,對外提供場景的元數據訪問接口,簡化場景應用的設計難度、無須關注元數據索引數據庫的運維工做,目前支持以下的元數據索引。
人臉分組索引。構建元數據集合,而後調用人臉分組的接口分析圖片,把獲得的元數據加入到該元數據集合中,從而能夠獲得該集合中類似的人臉。經過該索引,能夠快速的支撐網盤的人臉相冊、家庭監控的陌生人檢測、甚至新零售的顧客管理等場景。
標籤分組索引。構建元數據集合,而後調用標籤分組的索引接口分析圖片,把獲得的元數據加入到該元數據集合中,從而能夠根據標籤搜索圖片。經過該索引,能夠快速的支撐網盤的場景相冊、家庭監控的寵物跟蹤、甚至暴力、恐怖、色情圖片等標籤的搜索。
調度框架
IMM的全部數據處理請求都在調度框架下執行,例如上述架構中提到的處理引擎層、元數據索引層請求,它由2部分組成:
運行實例(Instance)。運行實例是運行指定數據處理功能的節點,例如運行圖片打標功能的節點。它能夠是虛擬機、或者Docker,可以採用預留類型、或者Spot競價類型的實例,支持部署在阿里雲的VPC(Virtual Private Cloud)環境,保證數據處理功能的安全性、隔離性。
調度控制器(Schedule Controller)。調度控制器負責把IMM接收到的請求分發到指定功能的實例上,它支持接收同步、異步的請求,提供準實時、離線的調度。針對負載的變化,實現了實例資源池的彈性伸縮、故障處理、自動升級等能力。
當調度框架收到同步的請求時,例如DetectTag進行圖片打標分析時。調度框架將會把請求分發到請求隊列的Pipeline,而後根據後端實例的節點狀態、負載狀況快速轉發請求,從而達到準實時調度的能力。爲了保證請求的低時延,以及請求的成功率,一般選擇預留的實例。
當調度框架收到異步的請求時,例如CreateTagJob指定OSS的桶、前綴進行批量的圖片打標分析時。調度框架將會把請求放到調度器,調度器遍歷OSS桶、前綴的對象,而後生成單個對象的數據處理請求並分發到多個請求隊列中,再根據後端實例的節點狀態、負載狀況快速向多個實例轉發請求,從而達到離線調度的能力。爲了保證離線調度的成本,一般選擇Spot類型的競價實例。
經過上述調度控制和數據處理分離的架構,調度框架提供以下亮點:
準實時、離線調度。針對離線處理性價比競爭力的優化設計下,也能提供準實時能力,實現數據處理的閉環。
同步、異步請求。支撐一鍵式的異步處理需求同時,還提供了同步請求的靈活性。
數據處理能力的安全性。利用VPC部署數據處理的實例,保證了資源的隔離、安全的屏蔽。
如何使用
IMM提供控制檯操做和API接口,經過控制檯快速的建立IMM的項目,而後體驗IMM的數據處理功能。
控制檯使用
登陸阿里雲控制檯,執行以下操做:
第一步,開通智能媒體管理服務。開通後,便可使用IMM提供的功能。
第二步,建立項目。使用IMM必需要建立項目,它是IMM資源管理、計費的基本單元。
建立了項目,就能夠體驗IMM支持的功能:
格式預覽。支持OFFICE文檔轉換,並用圖片方式預覽。
人臉檢測。檢測照片中的人臉,識別年齡、性別,眼部狀態信息。
圖片打標。檢測圖片包含的標籤信息,以及置信度值。
詳細的控制檯使用介紹,請參考IMM快速開始。
API使用
IMM的API調用方法
調用IMM的API須要遵照阿里雲的API規範,請參考IMM API調用,請您注意調用時的參數,特別是簽名。
以下是IMM典型功能的API調用示例。
文件格式轉換CreateFormatConvertJob
POST https://imm.cn-shanghai.aliyuncs.com?Action=CreateFormatConvertJob &Project=test &SrcUri="oss://bucket1/test.pptx" &TgtType=jpg &TgtUri="oss://bucket1/imm-format-convert-tgt/session123/" &ExternalID=aaa
該功能接口的詳細信息,請參考CreateFormatConvertJob。
圖片打標DetectTag
POST https://imm.cn-shanghai.aliyuncs.com?Action=DetectTag &Project=test &SrcUri=["oss://bucket1/1.jpg"]
該功能接口的詳細信息,請參考DetectTag。
人臉檢測DetectFace
POST https://imm.cn-shanghai.aliyuncs.com?Action=DetectFace &Project=test &SrcUri=["oss://bucket1/A.jpg"]
該功能接口的詳細信息,請參考DetectFace。
批量鑑黃CreatePornBatchDetectJob
POST https://imm.cn-hangzhou.aliyuncs.com?Action=CreatePornBatchDetectJob &Project=test &SrcUri="oss://bucket/prefix" &TgtUri="oss://bucket/imm-porn-batch-tgt/session1"
該功能接口的詳細信息,請參考CreatePornBatchDetectJob。
當即體驗
如今產品已經在阿里雲官網正式開始公測,點擊這裏當即體驗。
後續規劃
下一階段,IMM將和OSS集成拉通:
在OSS控制檯集成IMM功能。實現OFFICE文檔的預覽,媒體對象的AI功能。
在OSS提供存量數據的IMM處理對接。能夠經過OSS的控制檯,選擇某個桶或者其目錄,調用IMM的批量異步任務,例如批量鑑黃,從而享受高性價比、便捷的數據處理。
在OSS的API中拉通。調用oss的x-oss-process處理引擎時,調用到IMM的API進行處理。
經過這樣端的端的集成,從而讓您在雲上的管理更加易用。
點擊查看原文