技術編輯:徐九丨發自 北京
SegmentFault 思否報道丨公衆號:SegmentFaultgit
谷歌的一個研究團隊最近詳細介紹了一個名爲 SimCLR 的框架,該框架改進了以前的自我監督學習方法,這是一個將無監督學習問題(即 AI 模型在無標籤數據上進行訓練的問題)經過從無標籤數據集中建立標籤轉化爲有監督的問題的技術。github
在一篇預印本論文和附帶的博文中,谷歌表示 SimCLR 用有限的註釋數據實現了圖像分類的新紀錄,並且它足夠簡單,能夠被歸入現有的監督學習管道中。web
這對於將計算機視覺應用於標籤數據有限的領域的企業來講,多是個好消息。框架
SimCLR 在一個未標記的語料庫上學習基本的圖像表示,並能夠用一小部分標記的圖像進行微調,以完成分類任務。這些表徵是經過一種稱爲對比學習的方法來學習的,在這種方法中,模型同時將同一圖像的不一樣變換視圖之間的協議最大化,並將不一樣圖像的變換視圖之間的協議最小化。機器學習
SimCLR 首先從原始數據集中隨機抽取樣本,經過裁剪、顏色扭曲和模糊,對每一個樣本進行兩次變換,以建立兩組相應的視圖。而後,它使用機器學習模型計算出圖像表示,以後,它使用模塊生成圖像表示的投影,最大限度地提升了 SimCLR 識別同一圖像不一樣變換的能力。最後,在預訓練階段以後,SimCLR 的輸出能夠做爲圖像的表示,也能夠用標籤化的圖像進行定製,以實現特定任務的良好表現。性能
谷歌表示,在實驗中,當只對 1% 的標籤進行測試時,SimCLR 在一個測試數據集(ImageNet)上實現了 85.8% 的準確率,而以前最好的方法是 77.9%。學習
"咱們的結果代表,在大型非標籤圖像數據集上的預訓練有可能提升計算機視覺任務的性能,"研究科學家 Ting Chen 和谷歌研究副總裁兼工程研究員、圖靈獎得到者 Geoffrey Hinton 在一篇博文中寫道。"儘管它很簡單,但 SimCLR 極大地推動了自我監督和半監督學習的技術水平。"測試
SimCLR 的一做 Ting Chen,於 2017 年 6 月加入谷歌,2019 年加入谷歌大腦團隊擔任研究科學家。根據其我的媒體資料展現,2013 年本科畢業於北京郵電大學,於 2019 年 3 月得到加州大學洛杉磯分校計算機科學系博士學位。google
做者我的網址:
http://web.cs.ucla.edu/~tingc...
GitHub 地址:
https://github.com/google-res...
資料來源:
https://venturebeat.com/2020/...