目標檢測新範式：王者榮耀AI絕悟徹底體

機器之心 & ArXiv Weekly Radiostation
ios

參與：杜偉、楚航、羅若天算法

本週的重要研究包括王者榮耀 AI 絕悟徹底體以及全新的目標檢測範式 Sparse R-CNN。微信

目錄：

Towards Playing Full MOBA Games with Deep Reinforcement Learning網絡
Long Range Arena : A Benchmark for Efficient Transformers架構
Sparse R-CNN: End-to-End Object Detection with Learnable Proposals框架
The Mathematical Foundations of Manifold Learning機器學習
Learning to Reconstruct and Segment 3D Objects函數
U^2-Net: Going Deeper with Nested U-Structure for Salient Object Detection性能
Stylized Neural Painting學習
ArXiv Weekly Radiostation：NLP、CV、ML 更多精選論文（附音頻）

論文 1：Towards Playing Full MOBA Games with Deep Reinforcement Learning

做者：Deheng Ye、Guibin Chen、Wen Zhang 等
論文連接：https://arxiv.org/abs/2011.12692

摘要： 多人在線競技類遊戲 MOBA 長久以來一直吸引着衆多玩家，其中的王者榮耀、英雄聯盟、Dota 2 等最近也常被 AI 研究者當作人工智能的實驗場，其中的多智能體、巨大的狀態動做空間、複雜的環境等元素向 AI 系統提出了極大的挑戰。開發用於 MOBA 遊戲的 AI 引發了普遍的關注。然而，當 OpenAI 的 Dota AI 將遊戲限制在只能選擇 17 名英雄的狀況下，若想擴展英雄庫，現有的工做在處理由智能體組合（即陣容）爆炸性增加所致使的遊戲複雜性方面的問題存在難度。所以，現有的 AI 系統並不能掌握徹底沒有限制的 MOBA 遊戲。

在日均活躍玩家數量超 1 億的國民手遊王者榮耀上進行測試，展現了人類能夠打造出可以擊敗頂級電子競技玩家的超級 AI 智能體。經過文獻中首次對 MOBA AI 智能體進行大規模性能測試，證實了該 AI 的優越性 。

神經網絡架構示意圖。

curriculum self-play 學習流程圖。

推薦： 人工智能 2 級就來越塔來殺我。

論文 2：Long Range Arena : A Benchmark for Efficient Transformers

做者：Yi Tay、Mostafa Dehghani、Samira Abnar 等
論文連接：https://arxiv.org/pdf/2011.04006.pdf

摘要： Transformer 在多個模態（語言、圖像、蛋白質序列）中得到了 SOTA 結果，但它存在一個缺點：自注意力機制的平方級複雜度限制了其在長序列領域中的應用。目前，研究人員提出大量高效 Transformer 模型（「xformer」），試圖解決該問題。其中不少展現出了媲美原版 Transformer 的性能，同時還能有效下降自注意力機制的內存複雜度。

谷歌和 DeepMind 的研究人員提出了 一個新基準 Long-Range Arena (LRA)，用來對長語境場景下的序列模型進行基準測試 。該基準包括合成任務和現實任務，研究人員在此基準上對比了十個近期提出的高效 Transformer 模型，包括 Sparse Transformers、Reformer 、Linformer、Longformer、Sinkhorn Transformer、Performer、Synthesizer、Linear Transformer 和 BigBird 模型。

LRA 基準中每項任務的所需注意力範圍。

xformer 模型的效率基準測試結果。

推薦： 重點關注長語境場景下的模型質量評估。

論文 3：Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

做者：Peize Sun、Rufeng Zhang、Yi Jiang、Tao Kong, 等
論文連接：https://arxiv.org/abs/2011.12450

摘要： 沿着目標檢測領域中 Dense 和 Dense-to-Sparse 的框架， Sparse R-CNN 創建了一種完全的 Sparse 框架 ，脫離 anchor box，reference point，Region Proposal Network(RPN) 等概念，無需 Non-Maximum Suppression(NMS) 後處理，在標準的 COCO benchmark 上使用 ResNet-50 FPN 單模型在標準 3x training schedule 達到了 44.5 AP 和 22 FPS。

RetinaNet、Faster R-CNN 與 Sparse R-CNN 的比較。

Sparse R-CNN 架構 pipeline。

推薦： 全新的目標檢測範式。

論文 4：The Mathematical Foundations of Manifold Learning

做者：Luke Melas-Kyriazi
論文連接：https://arxiv.org/pdf/2011.01307.pdf

摘要： 流形學習（manifold learning）是機器學習、模式識別中的一種方法，在維數約簡方面具備普遍的應用。它的主要思想是將高維的數據映射到低維，使該低維的數據可以反映原高維數據的某些本質結構特徵。流形學習的前提是有一種假設，即某些高維數據，實際是一種低維的流形結構嵌入在高維空間中。流形學習的目的是將其映射回低維空間中，揭示其本質。流形學習能夠做爲一種數據降維的方式。此外，流形可以刻畫數據的本質，主要表明方法有等距映射、局部線性嵌入等。自 2000 年在著名的科學雜誌《Science》首次提出以來，流形學習成爲機器學習領域中的一個熱點。

近日，一篇 來自哈佛大學數學系的本科畢業論文引發了你們關注 。它結合三個看似不太相關的數學領域來介紹流形學習的數學基礎，這三個領域分別是：統計學習、譜圖理論和微分幾何。

監督、半監督和無監督學習示意圖。

經常使用核函數示例。

推薦： Luke Melas-Kyriazi 現爲牛津大學博士。

論文 5：Learning to Reconstruct and Segment 3D Objects

做者：Bo Yang
論文連接：https://arxiv.org/pdf/2010.09582.pdf

摘要： 賦予機器像人類同樣感知三維真實世界的能力，這是人工智能領域的一個根本且長期存在的主題。考慮到視覺輸入具備不一樣類型，如二維或三維傳感器獲取的圖像或點雲，該領域研究中一個重要的目標是理解三維環境的幾何結構和語義。傳統方法一般利用手工構建的特徵來估計物體或場景的形狀和語義。可是，這些方法難以泛化至新物體和新場景，也很難克服視覺遮擋的關鍵問題。

今年九月畢業於牛津大學計算機科學系的博士生 Bo Yang 在其畢業論文《Learning to Reconstruct and Segment 3D Objects》中對這一主題展開了研究。與傳統方法不一樣，做者經過在大規模真實世界的三維數據上訓練的深度神經網絡來學習通用和魯棒表示，進而理解場景以及場景中的物體。整體而言，本文開發了一系列新型數據驅動算法，以實現機器感知到真實世界三維環境的目的。做者表示：「本文能夠說是突破了人工智能和機器理解的界限。」

網絡架構的訓練和測試流程。

推薦： 人工智能和機器理解的界限.

論文 6：U2 -Net: Going Deeper with Nested U-Structure for Salient Object Detection

做者：Xuebin Qin、Zichen Zhang、Chenyang Huang 等
論文連接：https://arxiv.org/pdf/2005.09007.pdf

摘要：從人臉圖片生成藝術肖像畫的 AI 應用不在少數，但效果驚豔的很少。上面這張圖片中的輸入 - 輸出結果，來源於一個 GitHub 熱門項目 U^2-Net (U square net)，開源至今已經得到了 1.7K 的 star 量。這項研究來自阿爾伯塔大學的一個團隊，論文此前已被國際模式識別大會 ICPR 2020 會議接收。

研究團隊在論文中介紹， U^2-Net 是一個簡單而強大的深度網絡架構，其架構是兩層嵌套的 U 形結構 。該研究提出的 ReSidual U-block（RSU）中混合了不一樣大小的接收域，所以它可以從不一樣尺度中捕獲更多的語境信息。此外，RSU 中使用了池化操做，所以在不顯著增長計算成本的狀況下，也可以增長整個架構的深度。

U^2-Net 與其餘 SOTA SOD 模型的比較。

推薦： 研究者將其應用於人臉肖像畫的生成中，不論是兒童肖像仍是成年男性、成年女性，都能得到至關細緻的生成結果。

論文 7：Stylized Neural Painting

做者：Zhengxia Zou、Tianyang Shi、Shuang Qiu 等
論文連接：https://arxiv.org/pdf/2011.08114.pdf

摘要：在本文中，來自 密歇根大學安娜堡分校、網易伏羲 AI 實驗室等機構的研究者提出了一種圖像轉油畫的轉換方法，該方法能夠生成風格可控的生動逼真油畫做品 。因爲典型向量渲染器不可微分，所以他們設計了一種新型的神經渲染器，它可以模仿向量渲染器的行爲，而後將筆畫預測設計成參數搜索過程，以最大化輸入與渲染輸出之間的類似性。此外，研究者探索了參數搜索的零梯度問題，並提出從最優運輸角度解決該問題。

雙路徑神經渲染器。

（圖注）不一樣渲染方法的效果比較。

推薦：該方法生成的油畫在總體外觀和局部紋理上都具備很高的保真度。

ArXiv Weekly Radiostation

機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation，在 7 Papers 的基礎上，精選本週更多重要論文，包括NLP、CV、ML領域各10篇精選，並提供音頻形式的論文摘要簡介，詳情以下：

本週 10 篇 NLP 精選論文是：

1. Tight Integrated End-to-End Training for Cascaded Speech Translation. (from Hermann Ney)

2. Two-Way Neural Machine Translation: A Proof of Concept for Bidirectional Translation Modeling using a Two-Dimensional Grid. (from Hermann Ney)

3. GLGE: A New General Language Generation Evaluation Benchmark. (from Ruofei Zhang)

4. ONION: A Simple and Effective Defense Against Textual Backdoor Attacks. (from Maosong Sun)

5. Cross-Document Event Coreference Resolution Beyond Corpus-Tailored Systems. (from Iryna Gurevych)

6. Acoustic span embeddings for multilingual query-by-example search. (from Karen Livescu)

7. XTQA: Span-Level Explanations of the Textbook Question Answering. (from Jun Liu)

8. Enhancing deep neural networks with morphological information. (from Marko Robnik-Šikonja)

9. A Panoramic Survey of Natural Language Processing in the Arab World. (from Kareem Darwish)

10. 1st AfricaNLP Workshop Proceedings, 2020. (from Vukosi Marivate)

本週 10 篇 CV 精選論文是：

1. Temporal Action Detection with Multi-level Supervision. (from Kate Saenko, Trevor Darrell)

2. Exploring Simple Siamese Representation Learning. (from Kaiming He)

3. Emotional Semantics-Preserved and Feature-Aligned CycleGAN for Visual Emotion Adaptation. (from Alberto L. Sangiovanni-Vincentelli, Kurt Keutzer)

4. Learning to Sample the Most Useful Training Patches from Images. (from Liang Chen, Philip Torr)

5. SLADE: A Self-Training Framework For Distance Metric Learning. (from Larry Davis, C.-C. Jay Kuo)

6. Building 3D Morphable Models from a Single Scan. (from Joshua Tenenbaum)

7. Attention Aware Cost Volume Pyramid Based Multi-view Stereo Network for 3D Reconstruction. (from Bing Liu)

8. Unsupervised Discovery of DisentangledManifolds in GANs. (from Ming-Hsuan Yang)

9. SegBlocks: Block-Based Dynamic Resolution Networks for Real-Time Segmentation. (from Tinne Tuytelaars)

10. MicroNet: Towards Image Recognition with Extremely Low FLOPs. (from Zicheng Liu, Lei Zhang, Nuno Vasconcelos)

本週 10 篇 ML 精選論文是：

1. Energy-Based Models for Continual Learning. (from Antonio Torralba)

2. TLeague: A Framework for Competitive Self-Play based Distributed Multi-Agent Reinforcement Learning. (from Zhengyou Zhang)

3. Unsupervised learning of disentangled representations in deep restricted kernel machines with orthogonality constraints. (from Johan A. K. Suykens)

4. Equivariant Conditional Neural Processes. (from Yee Whye Teh)

5. MetaGater: Fast Learning of Conditional Channel Gated Networks via Federated Meta-Learning. (from Junshan Zhang)

6. Ensemble- and Distance-Based Feature Ranking for Unsupervised Learning. (from Sašo Džeroski)

7. Convergence Analysis of Homotopy-SGD for non-convex optimization. (from Moritz Diehl, Frank Hutter)

8. Explainable Multivariate Time Series Classification: A Deep Neural Network Which Learns To Attend To Important Variables As Well As Informative Time Intervals. (from Vasant Honavar)

9. No Subclass Left Behind: Fine-Grained Robustness in Coarse-Grained Classification Problems. (from Christopher Ré)

10. Cyclic Label Propagation for Graph Semi-supervised Learning. (from Jiajun Bu)

本文分享自微信公衆號 - 視學算法（visualAlgorithm）。
若有侵權，請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」，歡迎正在閱讀的你也加入，一塊兒分享。