當達摩院大牛學會摳圖，這一切都不受控制了……

時間 2020-02-05

標籤達摩學會一切不受控制简体版

原文原文鏈接

在外界人眼中，達摩院人才輩出，大可能是奇人異士，作着神祕且高端的研究，有如掃地僧通常的存在，可是若是有一天，當神祕專家再也不神祕，你發現他們也開始玩摳圖，且這一切都朝着不受控制的方向發展了的時候，那麼摳圖他們能玩出哪些花樣？html

你看看，萬物接可摳！

換成視頻試試？能夠！

視頻連接：https://ucc-vod.alicdn.com/sv...git

咱們爲何要開始研究摳圖？

這要從阿里巴巴智能設計實驗室自主研發的一款設計產品鹿班提及。鹿班的初衷是改變傳統的設計模式，使其在短期內完成大量banner圖、海報圖和會場圖的設計，提升工做效率。商家上傳的寶貝圖良莠不齊，直接投放效果不佳，經過鹿班製圖能夠保證會場風格統1、高質視覺效果傳達，從而提高商品吸引力和買家視覺體驗，達到提高商品轉化率的目的。web

而在製圖的過程當中，咱們發現商品摳圖是一項不可避免且繁瑣的工做，一張人像精細摳圖平均須要耗費設計師2h以上的時間，這樣無需創意的純體力工做亟需被AI所取代，咱們的摳圖算法應運而生。算法

近幾年圖像摳圖算法逐漸進入人們的視野，如騰訊（每天P圖）、百度（人像摳圖、汽車分割）等。而潛藏在其背後的行業：泛文娛，電商行業、垂直行業，諸如在線餐飲、媒體、教育等行業商業價值不容小覷，能夠知足各類戰報、在線課程教師摳圖、視頻封面製做等不一樣形式的圖片製做需求拓展。市面上的一些摳圖算法效果在人像髮絲細節處理均不是很好，且對一些通用場景（電商等）支持也不是很好。咱們針對這兩個問題一方面設計更具備泛化能力的系統、一方面深化髮絲和高度鏤空相關算法，均有更好的效果。小程序

遇到的難題和解決方案

咱們最開始在上手鹿班「批量摳圖」需求時，發現用戶上傳的圖像質量、來源、內容五花八門，想用一個模型實現業務效果達到一勞永逸很難。在通過對場景和數據的大量分析後，定製總體框架以下：設計模式

主要涵蓋了過濾、分類、檢測、分割四個模塊：api

過濾：濾掉差圖（過暗、過曝、模糊、遮擋等），主要用到分類模型和一些基礎圖像算法；
分類：瓶飲美妝等品類商品連通性比較好，3C、日用、玩具等品類則反之，另外場景（如人頭、人像、動物）需求也是各具差別，故而設計不一樣的分割模型提高效果；
檢測：在鹿班場景用戶數據多來自於商品圖，不少是通過高度設計的圖像，一圖多商品、多品類、主體佔比小，也不乏文案、修飾、logo等冗餘信息，增長一步檢測裁剪再作分割效果更精準；
分割：先進行一層粗分割獲得大體mask，再進行精細分割獲得精確mask，這樣一方面能夠提速，一方面也能夠精確到髮絲級；

如何讓效果更精準？架構

目前分類、檢測模型相對比較成熟，而評估模型則須要根據不一樣場景作一些定製（電商設計圖、自然攝影圖等），分割精度不足，是全部模塊中最薄弱的一個環節，所以成爲了咱們的主戰場。詳述以下：框架

分類模型：分類任務每每須要多輪的數據準備，模型優化，數據清洗纔可以落地使用。據此，咱們設計完成了一個自動分類工具，融合最新的優化技術，並借鑑autoML的思想，在有限GPU資源的狀況下作參數和模型搜索，簡化分類任務中人員的參與，加速分類任務落地。
評估模型：直接使用迴歸作分數擬合，訓練效果並很差。該場景下做爲一個前序過濾任務，做爲分類問題處理則比較合理。實際咱們也採用一些傳統算法，協助進行過暗、過曝等判斷。
檢測模型：主要借鑑了FPN檢測架構。

一、對特徵金字塔每一層featuremap都融合上下相鄰層特徵，這樣輸出的特徵潛在表徵能力更強；
二、特徵金字塔不一樣層特徵分別預測，候選anchors可增長對尺度變化的魯棒性，提高小尺度區域召回；
三、對候選anchor的設定增長一些可預見的scale，在商品尺寸比例比較極端的狀況下大幅提高普適性；工具