30億參數，華爲雲發佈全球最大預訓練模型，開啓工業化AI開發新模式

時間 2021-05-23

標籤算法數據庫 segmentfault 網絡框架模塊化函數性能學習測試欄目硅谷简体版

原文原文鏈接

摘要： 4月25日，華爲雲發佈盤古系列超大規模預訓練模型，包括30億參數的全球最大視覺（CV）預訓練模型，以及與循環智能、鵬城實驗室聯合開發的千億參數、40TB訓練數據的全球最大中文語言（NLP）預訓練模型。後續，華爲雲還將陸續發佈多模態、科學計算等超大預訓練模型。

本文分享自華爲雲社區《HDC.Cloud 2021 | 華爲雲發佈全球最大預訓練模型，開啓工業化AI開發新模式》，原文做者：技術火炬手。算法

4月25日，華爲雲發佈盤古系列超大規模預訓練模型，包括30億參數的全球最大視覺（CV）預訓練模型，以及與循環智能、鵬城實驗室聯合開發的千億參數、40TB訓練數據的全球最大中文語言（NLP）預訓練模型。後續，華爲雲還將陸續發佈多模態、科學計算等超大預訓練模型。數據庫

華爲雲人工智能領域首席科學家、IEEE Fellow田奇表示：「預訓練大模型是解決AI應用開發定製化和碎片化的重要方法。華爲雲盤古大模型能夠實現一個AI大模型在衆多場景通用、泛化和規模化複製，減小對數據標註的依賴，並使用ModelArts平臺，讓AI開發由做坊式轉變爲工業化開發的新模式。」
segmentfault

▲華爲雲人工智能領域首席科學家、IEEE Fellow田奇網絡

全球最大中文語言預訓練模型，刷新CLUE三項榜單世界紀錄

盤古NLP大模型是全球最大的千億參數中文語言預訓練模型，由華爲雲、循環智能和鵬城實驗室聯合開發，預訓練階段學習了40TB中文文本數據，並經過行業數據的樣本調優提高模型在場景中的應用性能。框架

盤古NLP大模型在三個方面實現了突破性進展：模塊化

第一，具有領先的語言理解和模型生成能力：在權威的中文語言理解評測基準CLUE榜單中，盤古NLP大模型在總排行榜及分類、閱讀理解單項均排名第一，刷新三項榜單世界歷史紀錄；總排行榜得分83.046，多項子任務得分業界領先, 向人類水平（85.61）邁進了一大步。
函數

▲盤古NLP大模型位列CLUE榜單總排行榜第一性能

在NLPCC2018文本摘要任務中，盤古NLP大模型取得了Rouge平均分0.53的業界最佳成績，超越第二名百分之六十。學習

第二，盤古NLP大模型在預訓練階段沉澱了大量的通用知識，既能作理解又能作生成。除了能像GPT-3等僅基於端到端生成的方式之外，大模型還能夠經過少樣本學習對意圖進行識別，轉化爲知識庫和數據庫查詢。經過功能的模塊化組合支持行業知識庫和數據庫的嵌入，進而對接行業經驗，使能全場景的快速適配與擴展。好比在華爲雲和循環智能合做構建的金融客服場景中，盤古NLP大模型能更好地賦能銷售環節，幫助服務人員快速提高業務水平，重塑消費者體驗。測試

第三，盤古NLP大模型採用大模型小樣本調優的路線，實現了小樣本學習任務上超越GPT系列。好比在客戶需求分析場景中，使用盤古NLP大模型生產語義標籤時，獲得目標結果所需的樣本量僅爲GPT系列模型的十分之一，即AI生產效率可提高十倍。

30億參數，全球最大視覺預訓練模型

盤古CV大模型是目前業界最大的視覺預訓練模型，包含超過30億參數。盤古CV大模型首次兼顧了圖像判別與生成能力，從而可以同時知足底層圖像處理與高層語義理解需求，同時可以方便融合行業知識微調，快速適配各類下游任務。盤古CV大模型性能表現優異，在ImageNet 1%、10%數據集上的小樣本分類精度上均達到目前業界最高水平（SOTA）。

盤古CV大模型致力於解決AI工程難以泛化和複製的問題，開創AI開發工業化新模式，大大節約研發成本。此外，盤古CV大模型提供模型預訓練、微調、部署和迭代的功能，造成了AI開發完整閉環，極大提高AI開發效率。目前，盤古CV大模型已經在醫學影像、金融、工業質檢等100餘項實際任務中獲得了驗證，不只大幅提高了業務測試精度，還能平均節約90%以上的研發成本。

盤古CV大模型助力無人機電力智能巡檢

國網重慶永川供電公司是國內早期應用無人機電力智能巡檢技術的電網企業。傳統的無人機智能巡檢AI模型開發主要面臨兩大挑戰：一是如何對海量數據進行高效標註；二是缺陷種類多達上百種，須要數十個AI識別模型，開發成本高。

華爲雲與國網重慶永川供電公司合做，在無人機智能巡檢AI模型開發上，華爲雲盤古CV大模型相對於傳統開發模式，展示了其強大的優點。

在數據標註方面，盤古CV大模型利用海量無標註電力數據進行預訓練，並結合少許標註樣本微調的高效開發模式，首創性地提出了針對電力行業的預訓練模型，使得樣本篩選效率提高約30倍，篩選質量提高約5倍，以永川天天採集5萬張高清圖片爲例，可節省人工標註時間170人天。

在模型通用性方面，結合盤古搭載的自動數據增廣以及類別自適應損失函數優化策略，能夠作到一個模型適配上百種缺陷，替代原有20多個小模型，極大地減小了模型維護成本，平均精度提高18.4%，模型開發成本下降90%。

盤古大模型背後的支撐

盤古NLP大模型涉及千億參數、40TB訓練數據，對算法、算力、海量數據處理、並行優化都提出了很大挑戰。

在算法方面，華爲雲的算法團隊和循環智能（Recurrent AI）的NLP團隊聯合攻關，突破了大模型微調的難題。

鵬城實驗室的國內最大規模AI訓練集羣鵬城雲腦II，在盤古NLP大模型訓練中展現出強大的AI算力和數據吞吐能力，爲盤古大模型訓練打下堅實的基礎。

另外一方面，華爲底層軟件、訓練框架、ModelArts平臺協同優化，充分釋放算力，達成全棧性能最優。首先，針對底層算子性能，基於華爲CANN採用了算子量化、算子融合優化等技術，將單算子性能提高30%以上。其次，華爲MindSpore創新性地採用了「流水線並行、模型並行和數據並行」的多維自動混合並行技術，大幅下降了手動編碼的工做量，並提高集羣線性度20%。華爲雲ModelArts平臺提供E級算力調度，同時結合物理網絡拓撲，提供動態路由規劃能力，爲大模型訓練提供了最優的網絡通訊能力。此外，藉助ModelArts平臺的高效處理海量數據能力，僅用7天就完成了40TB文本數據處理。

截至目前，華爲雲已經在全國10多個行業超過600個項目進行了人工智能落地和實踐，幫助城市、交通、醫療、鋼鐵、紡織、能源、金融等行業智能升級。將來，華爲雲將持續經過技術創新，驅動產業智能升級。

點擊關注，第一時間瞭解華爲雲新鮮技術~

相關標籤/搜索

開發模式