全文共1536字,預計學習時長3分鐘程序員
圖片來源:pexels.com/@markusspiske算法
現在,機器學習受到萬千矚目,但目前科技公司的領導層中卻不多有人既具有建構機器學習模型的專業能力,又已經設計出可以大力推進機器學習投入實際運用的機器學習系統。微信
不少商業大咖都認爲,數據與算法同樣,是他們我的成功的關鍵所在。那麼,訓練數據通過了哪些發展過程?架構
訓練數據簡史機器學習
1. 20年的訓練數據史性能
訓練數據的歷史裏存在妙不可言的循環。20世紀90年代,機器學習還未主導AI產業,程序員都是根據模型行爲來編寫硬代碼,以改善系統。約20年後,機器學習主導了AI產業,較爲類似的「人機迴圈」系統開始流行,只不過此次基於模型行爲建構訓練數據的是非專業的註釋員。學習
而在20世紀90年代到本世紀初這20年間,標註訓練數據所需費用高昂,大大限制了機器學習的發展。這致使學術界專一於在相對較少的規範數據集上測試不一樣算法,並且時至今日這一趨勢還未有太大轉變。測試
本世紀前10年後期,亞馬遜的MTurk掀起了一股訓練數據現收現付的潮流,這改變了人們對訓練數據建構的見解。此時學術界也興起了一場小規模的運動,主動學習崛起爲一種人工標註的策略,用於幫助註釋員挑選正確的數據。人工智能
但這一時期最大的改變並不在於學術界,而在於產業。自那時起,人們在真實世界中構建機器學習模型時,訓練數據和算法已經變得同等重要。設計
在21世紀前5年裏還出現了另外一個循環——當時的神經元模型也須要大量的訓練數據,並且這每每會產生高昂成本。這就致使神經元方法在初創產業的普及應用十分緩慢,除了少數的計算機視覺項目。但這一方法足以大大提升機器學習的精準性,甚至有助於創造新的實用案例。
現在,自適應神經元模型和遷移學習已有所發展,這意味着更小的數據集也能夠在機器學習的集中應用中展示出先進性能。
2. 訓練數據架構
目前訓練數據面臨的問題
在面對訓練數據的不一樣應用實例時,常常會用到類似的策略,例如,咱們須要多少數據?誰來標註比較合適?如何衡量標註質量?是否能夠用合成數據或者預先訓練過的模型來標註數據,以下降人工註釋的薪水成本?在算法方面,如何迅速使模型適應新的標註數據?又如何解釋模型的不肯定性,以幫助人們在檢查中對未標註數據進行正確採樣?
算法的建構方式在過去20年裏有巨大的演變,訓練數據的建構方法也一樣發生了翻天覆地的變化。在討論會上分享這些十分有趣,由於目前在機器學習的圈子裏,對訓練數據的討論遠遠沒有對算法的討論來得普遍。
3. AI多樣性如何適應訓練數據?
現在一個最大的開放性問題是:AI多樣性如何適應訓練數據?
在《歧視系統:AI中的性別、種族和權力》這篇文章中,MyersWest、Whittaker和Crawford就AI設計者族羣多樣的重要性進行了討論,他們主要聚焦於算法和機器學習模型的建立者。
文章傳送門:https://ainowinstitute.org/discriminatingsystems.pdf
若是要延續這一討論,其實在機器學習中,訓練數據領域存在的族羣差別更加明顯。以算法爲中心的技術每每更有利於富人的生活,對於程序員來講,一旦建立的模型投入應用,收入就極可能會增長。可是以訓練數據爲中心的技術卻每每會壓榨那些相對不那麼富裕的人羣的價值,若是你爲一個模型建構了訓練數據,極可能只會收到一次酬金,但爲數據建構算法的程序員卻能有源源不斷的收入。
20世紀90年代,建構算法的人也同時建構了數據(或稱規則),所以必須均等地衡量他們在這兩方面的貢獻。我但願這也能造成一個循環,以便迴歸到一個更爲公平的產業系統之中,使在訓練數據領域創造價值的人們也能得到相應的補償。
留言 點贊 關注
咱們一塊兒分享AI學習與發展的乾貨
歡迎關注全平臺AI垂類自媒體 「讀芯術」
(添加小編微信:dxsxbb,加入讀者圈,一塊兒討論最新鮮的人工智能科技哦~)