出品 | CDA數據分析研究院,轉載須受權
經過建立容許咱們使用機器學習模型中的表示的用戶界面,咱們能夠爲人們提供推理的新工具。程序員
從歷史上看,這個問題有不一樣答案——即不一樣的計算視圖——有助於激發和決定人類最終創建的計算系統。考慮早期的電子計算機。ENIAC是世界上第一臺通用電子計算機,受委託爲美國陸軍計算炮兵射擊臺。其餘早期計算機也用於解決數值問題,例如模擬核爆炸,預測天氣和規劃火箭的運動。這些機器以批處理模式運行,使用原始輸入和輸出設備,沒有任何實時交互。這是計算機做爲數字計算機的願景,用於加速之前須要數週,數月的計算。算法
在20世紀50年代,對計算機的不一樣見解開始發展。1962年道格拉斯·恩格爾巴特(Douglas Engelbart)提出計算機能夠做爲一種方式使用。在這種觀點中,計算機不是解決數字運算問題的主要工具。相反,它們是具備豐富輸入和輸出的實時交互系統,人類能夠與之合做以支持和擴展本身的問題解決過程。這種情報加強(IA)的願景深深地影響了許多其餘人,包括施樂PARC的Alan Kay,Apple的Steve Jobs等企業家,以及現代計算系統的許多關鍵思想。它的思想也深入影響了數字藝術和音樂,以及交互設計,數據可視化,計算創造力和人機交互等領域。瀏覽器
對IA的研究常常與人工智能(AI)的研究競爭:資金競爭,競爭有才能的研究人員的利益。雖然這些領域之間一直存在重疊,但IA一般專一於構建令人和機器協同工做的系統,而AI則專一於將智能任務徹底外包給機器。特別是,人工智能問題一般是在匹配或超越人類表現方面構成的:在國際象棋或圍棋中擊敗人類;學習識別語音和圖像或翻譯語言以及人類等等。網絡
本文描述了一個新的領域,今天出如今AI和IA的綜合中。對於這個領域,咱們建議使用人工智能加強(AIA):使用AI系統來幫助開發新的智能加強方法。這個新領域引入了新的重要基本問題,與其父級領域無關的問題。咱們相信AIA的原則和系統將與大多數現有系統徹底不一樣。app
咱們的文章首先調查了近期關於人工智能加強的技術工做,包括生成界面的工做——便可用於探索和可視化生成機器學習模型的界面。這樣的界面開發了一種生成模型的製圖,人類從這些模型中探索和創造意義的方法,並將這些模型「知道」的內容融入他們的創造性工做中。機器學習
咱們的文章不只僅是對技術工做的調查。咱們認爲如今是在這個新興領域的基礎上肯定一些普遍的基本問題的好時機。這些新工具能在多大程度上實現創造力?基於現有想法的微不足道的重組,它們能用於產生真正使人驚訝和新的想法,仍是想法陳詞濫調?這些系統能用於開發基本的新接口原語嗎?這些新原語將如何改變和擴展人類的思惟方式?函數
讓咱們看一個機器學習模型使一種新型接口成爲可能的例子。要理解界面,想象一下你是一個類型設計師,正致力於建立一個新的字體。在草擬了一些初始設計以後,您但願嘗試使用粗體,斜體和濃縮變體。讓咱們來看一下從任何初始設計中生成和探索這些變化的工具。因爲很快就會解釋的緣由,結果的質量很是粗糙;請耐心等待。工具
固然,改變粗體(即重量),斜體和寬度只是改變字體的三種方式。想象一下,用戶能夠僅經過選擇現有字體的示例來構建本身的工具,而不是構建專用工具。例如,假設您想要改變字體上的serif度。在下面,請從頂部框中選擇5到10個sans-serif字體,而後將它們拖到左側的框中。選擇5到10個serif字體並將它們拖到右側的框中。在您執行此操做時,在瀏覽器中運行的機器學習模型將自動從這些示例中推斷出如何以serif或sans-serif方向插入起始字體:學習
事實上,咱們使用相同的技術來構建早期的粗體斜體和冷凝工具。爲此,咱們使用如下粗體和非粗體字體,斜體和非斜體字體以及壓縮和非壓縮字體的示例:字體
爲了構建這些工具,咱們使用了所謂的生成模型。要理解生成模型,考慮描述字體的先驗彷佛須要大量數據。例如,若是字體是64 × 64像素,那麼咱們須要64 × 64 = 4096個參數來描述一個字形。但咱們可使用生成模型來找到更簡單的描述。
咱們經過構建一個神經網絡來實現這一點,該神經網絡採用少許輸入變量(稱爲潛在變量),並將整個字形做爲輸出。對於咱們使用的特定型號,咱們有4040個潛在空間維度,並映射到4096描述字形全部像素維空間。換句話說,想法是將低維空間映射到更高維空間:
咱們使用的生成模型是一種稱爲a的神經網絡。就咱們的目的而言,生成模型的細節並不那麼重要。重要的是,經過更改用做輸入的潛在變量,能夠將不一樣的字體做爲輸出。所以,潛在變量的一個選擇將提供一種字體,而另外一種選擇將提供不一樣的字體:
您能夠將潛在變量視爲字體的緊湊,高級表示。神經網絡採用該高級表示並將其轉換爲全像素數據。真是太了不得了4040個數字能夠捕獲最初須要的字形中的明顯複雜性4096個變量。
咱們使用的生成模型是從一個從開放的網絡上刮下來的5萬字體的訓練集中學習的。在訓練期間,調整網絡中的權重和誤差,使得網絡能夠輸出與訓練集中的任何指望字體的近似近似,只要作出適當的潛在變量選擇。在某種意義上,該模型正在學習全部訓練字體的高度壓縮表示。
實際上,該模型不只僅重現了訓練字體。它還能夠歸納,生成訓練中看不到的字體。經過被迫找到訓練樣例的簡潔描述,神經網絡學習了一個抽象的,更高級別的字體模型。這種更高級別的模型使得能夠歸納超出已經看到的訓練示例,以產生逼真的字體。
理想狀況下,一個好的生成模型將暴露於相對少許的訓練樣例,並使用該暴露來推廣到全部可能的人類可讀字體的空間。也就是說,對於任何可想到的字體 - 不管是現有的仍是將來的想象 - 均可以找到與該字體徹底對應的潛在變量。固然,咱們使用的模型遠遠沒有達到這個理想。一個特別使人震驚的失敗是模型生成的許多字體省略了大寫「Q」的尾部(你能夠在上面的例子中看到這一點)。不過,記住理想的生成模型仍是會有用處的。
這些生成模型在某些方面與科學理論的工做方式相似。科學理論一般大大簡化了對複雜現象的描述,將大量變量簡化爲幾個變量,從中能夠推導出系統行爲的許多方面。此外,良好的科學理論有時使咱們可以歸納地發現新現象。
例如,考慮普通的材料對象。這些物體具備物理學家所稱的相 - 它們能夠是液體,固體,氣體,或者多是更具異國情調的物質,如超導體或玻色 - 愛因斯坦凝聚物。 先驗地說,這樣的系統彷佛很是複雜,或許涉及到10^23個左右的分子。可是熱力學和統計力學的定律使咱們可以找到一個更簡單的描述,將這種複雜性下降到幾個變量(溫度,壓力等),這些變量包含了系統的大部分行爲。此外,有時能夠歸納,預測意外的物質新階段。例如,在1924年,物理學家利用熱力學和統計力學來預測物質的一個顯着的新階段,即玻色 - 愛因斯坦凝聚,其中一組原子可能都佔據相同的量子態,致使使人驚訝的大規模量子干涉效應。在咱們後來關於創造力和生成模型的討論中,咱們將回到這種預測能力。
回到生成模型的細節,咱們如何使用這些模型進行上述工具中的基於實例的推理?讓咱們考慮一下粗體工具的狀況。在這種狀況下,咱們採用用戶指定的粗體字體的全部潛在向量的平均值,以及全部用戶指定的非粗體字體的平均值。而後咱們計算這兩個平均向量之間的差別:
咱們將其稱爲粗體向量。爲了使一些給定的字體更粗,咱們只需將一些粗體向量添加到相應的潛在向量,添加粗體向量的數量來控制結果的粗體:
這項技術是由,像粗體矢量這樣的矢量有時被稱爲屬性矢量。咱們展現的工具備許多缺點。考慮下面的示例,咱們從中間的示例字形開始,而後增長或減小粗體(分別在右側和左側):
檢查左右兩側的字形,咱們看到許多不幸的文物。特別是對於最右邊的字形,邊緣開始變粗糙,而且襯線開始消失。更好的生成模型能夠減小這些僞影。這是一個很好的長期研究計劃,帶來了許多有趣的問題。但即便使用咱們的模型,使用生成模型也有一些顯着的好處。
要了解這些好處,請考慮一種天真的粗體方法,咱們只需在字形邊緣添加一些額外的像素,而後將其加粗。雖然這種增厚可能與非專家對類型設計的思考方式相匹配,但專家作了更多涉及的事情。在下文中,咱們展現了這個天真的增稠程序與格魯吉亞和Helvetica實際完成的結果:
正如您所看到的,在兩種狀況下,天真的粗體過程都會產生徹底不一樣的結果。例如,在格魯吉亞,左筆劃僅經過粗體略微改變,而右筆劃大大擴大,但僅在一側。在這兩種字體中,粗體不會改變字體的高度,而天真的方法也是如此。
正如這些示例所示,良好的粗體不是加厚字體的簡單過程。專家類型設計師有許多用於粗體的啓發式方法,從先前的許多實驗中推斷出的啓發式方法,以及對歷史實例的仔細研究。在傳統程序中捕獲全部這些啓發式算法將涉及巨大的工做。使用生成模型的好處是它能夠自動學習許多這樣的啓發式方法。
例如,天真的粗體工具將快速填充在字母「A」的封閉上部區域中的封閉負空間中。字體工具不會這樣作。相反,它保留了封閉的負空間,向下移動A的杆,而且比外部更慢地填充內部筆劃。這個原理在上面顯示的例子中很明顯,特別是Helvetica,它也能夠在字體工具的操做中看到:
保留封閉負空間的啓發式不是先驗明顯的。可是,它是在許多專業設計的字體中完成的。若是您檢查上面顯示的示例,很容易理解爲何:它提升了可讀性。在訓練過程當中,咱們的生成模型從它看到的例子中自動推斷出這個原理。而後咱們的粗體界面使用戶可使用它。
實際上,該模型捕獲了許多其餘啓發式方法。例如,在上面的例子中,(粗略地)保留了字體的高度,這是專業字體設計的標準。一樣,正在發生的不只僅是字體的加厚,而是生成模型推斷出更微妙的啓發式的應用。這種啓發式方法可用於建立具備屬性的字體,不然這些屬性不太可能發生在用戶身上。所以,該工具擴展了普通人探索有意義字體空間的能力。
字體工具是一種認知技術的例子。特別是,它包含的原始操做能夠內化爲用戶思考的一部分。在這方面,它相似於Photoshop或電子表格或3D圖形程序等程序。每一個都提供了一組新的界面原語,原語能夠被用戶內化爲他們思想中的基本新元素。這種新原語內化的行爲對於智力加強的大量工做相當重要。
字體工具中顯示的想法能夠擴展到其餘域。使用相同的界面,咱們可使用生成模型來使用諸如表情,性別或頭髮顏色等品質來操縱人臉圖像。或者使用長度,諷刺或語調來操縱句子。或者使用化學特性操縱分子:
這種生成界面提供了一種生成模型的製圖,人類探索的方法和使用這些模型的意義。
咱們以前看到,字體模型自動推斷出有關字體設計的相對深刻的原則,並使其可供用戶使用。儘管能夠推斷出如此深入的原則是很好的,但有時候這些模型會推斷出其餘錯誤或不可取的東西。例如,在某些臉部模特中加入微笑矢量會使臉部不只僅是笑容更多,並且更具女人味。爲何?由於在訓練數據中,女性比男性更多。因此這些模型可能不只僅是學習關於世界的深入事實,它們也可能內化偏見或錯誤的信念。一旦知道了這種誤差,一般就能夠進行修正。但要找到這些偏見須要仔細審覈模型,目前尚不清楚咱們如何確保此類審覈是詳盡無遺的。
更普遍地說,咱們能夠問爲何屬性向量工做,什麼時候工做,什麼時候失敗?目前,人們對這些問題的答案知之甚少。要使屬性向量起做用,須要採用任何起始字體,咱們能夠經過在潛在空間中添加相同的向量來構造相應的粗體版本。然而,先驗地沒有理由使用單個常數向量來替換將起做用。可能咱們應該以許多不一樣的方式取代。例如,用於加粗serif和sans-serif字體的啓發式方法是徹底不一樣的,所以彷佛可能涉及很是不一樣的位移:
固然,咱們能夠作一些比使用單個常量屬性向量更復雜的事情。給定成對的示例字體(unbold,bold),咱們能夠訓練機器學習算法,將未加載版本的潛在向量做爲輸入,並輸出粗體版本的潛在向量。經過關於字體權重的附加訓練數據,機器學習算法能夠學習生成任意權重的字體。屬性向量只是進行這些操做的一種很是簡單的方法。
因爲這些緣由,屬性向量彷佛不太可能做爲操縱高級特徵的方法。在接下來的幾年裏,將會開發出更好的方法。可是,咱們仍然能夠指望提供的操做與上面概述的操做大體類似,從而容許訪問高級和潛在的用戶定義概念。該接口模式不依賴於屬性向量的技術細節。
讓咱們看一下使用機器學習模型來加強人類創造力的另外一個例子。它是由互動式生成對抗性網絡或iGAN引入的。
在2016年。Zhu 等人的一個例子是在界面中使用iGAN來生成諸如鞋子之類的消費產品的圖像。傳統上,這樣的界面將要求程序員編寫包含關於鞋子的大量知識的程序:鞋底,鞋帶,鞋跟等。朱等人沒有這樣作,而是用一種生成模型訓練505幅0 鞋子千圖像,從Zappos的下載。而後,他們使用該生成模型構建一個界面,讓用戶粗略地勾勒出鞋子,鞋底,鞋帶等的形狀:
視覺質量低,部分緣由是朱等人使用的生成模型是已通過時的。現代(2017)標準——更現代的模型,視覺質量會更高。
但視覺質量不是重點。這個原型正在進行許多有趣的事情。例如,注意鞋底的總體形狀如何在鞋底填充時發生顯着變化 - 它變得更窄更光滑。填充了許多小細節,例如白色鞋底頂部的黑色滾邊,鞋底上處處都是紅色。這些和其餘事實是從基礎生成模型中自動推導出來的,咱們將在稍後描述。
相同的界面可用於草繪風景。惟一的區別是潛在的生成模型已經在景觀圖像而不是鞋子圖像上進行了訓練。在這種狀況下,能夠僅繪製與景觀相關的顏色。例如,這裏有一個用戶在一些綠草中繪製草圖,山的輪廓,一些藍天和山上的雪:
這些界面中使用的生成模型與咱們的字體模型不一樣。它們不是使用變分自動編碼器。但潛在的想法仍然是找到一個低維潛在空間,可用於表示(好比說)全部風景圖像,並將潛在空間映射到相應的圖像。一樣,咱們能夠將潛在空間中的點視爲描述景觀圖像的緊湊方式。粗略地說,iGAN的工做方式以下。不管當前圖像是什麼,它都對應於潛在空間中的某個點:
假設,正如以前的視頻中所發生的那樣,用戶如今勾畫出一個概述山形的筆畫。咱們能夠將筆畫看做是對圖像的約束,挑選出潛在空間的子空間,包括潛在空間中與圖像匹配的全部點:
界面工做的方式是在潛在空間中找到一個靠近當前圖像的點,所以圖像不會改變太多,但也接近知足強加的約束。這是經過優化目標函數來完成的,該目標函數將距離與每一個施加的約束相結合,以及從當前點移動的距離。若是隻有一個約束,好比說,對應于山脈,這看起來以下所示:
所以,咱們能夠將此視爲對潛在空間施加約束以便以有意義的方式移動圖像的一種方式。
iGAN與咱們以前展現的字體工具備不少共同之處。二者都提供了編碼關於世界的微妙知識的可用操做,不管是學習理解山是什麼樣的,仍是推斷在加粗字體時應該保留封閉的負空間。iGAN和字體工具都提供了理解和導航高維空間的方法,使咱們保持在字體或鞋子或風景的天然空間。正如朱等人所說:
或咱們大多數人,即便在Photoshop中進行簡單的圖像處理也會帶來難以克服的困難......任何不完美的編輯都會當即使圖像看起來徹底不切實際。換句話說,經典的視覺操做範例並不能阻止用戶「脫落」天然圖像的多樣性。
與字體工具同樣,iGAN是一種認知技術。用戶能夠將界面操做內化爲他們思惟中的新原始元素。例如,在鞋子的狀況下,他們能夠學習根據他們想要應用的差別來思考,添加鞋跟,或更高的鞋面,或特殊的亮點。這比非專家對鞋的傳統方式(「11號,黑色」 等)更爲豐富)。在某種程度上,非專家確實以更復雜的方式思考 - 「讓頂部更高一些,更時尚」 - 他們在這方面思考的方式不多,或者看到他們選擇的後果。擁有這樣的界面能夠更容易地探索,開發習語的能力和計劃能力,與朋友交換想法等等。
讓咱們從新回顧一下咱們開始撰寫文章的問題,關於計算機的用途以及這與智能加強的關係。
計算機的一個常見概念是它們是解決問題的機器,如:
「計算機,在這樣的風中發射這種炮彈的結果是什麼?」
「計算機,東京的最高溫度在5天內會是多少?」
「電腦,當Go董事會處於這個位置時,最好的舉動是什麼?」
「計算機,這個圖像應該如何分類?」 等等這些問題。
這是計算機做爲數字計算器的早期觀點所共有的概念,也是歷史和如今人工智能的大量工做。它是計算機模型,做爲外包認知的一種方式。在可能的將來人工智能的推測性描述中,這種認知外包模式常常出如今人工智能做爲神諭的視野中,可以解決一些具備優於人類表現的大類問題。
可是對計算機的用途有一個很是不一樣的概念是可能的,這個概念與智力加強的工做更加一致。
要理解這種替代觀點,請考慮咱們的主觀思想體驗。對於許多人來講,這種體驗是口頭的:他們認爲使用語言,在他們的頭腦中造成文字鏈,相似於言語中的句子或寫在頁面上。對於其餘人來講,思考是一種更直觀的體驗,包含圖形和地圖等表示。還有其餘人將數學融入他們的思惟中,使用代數表達式或圖解技術,如費曼圖和彭羅斯圖。
在每種狀況下,咱們都在考慮使用其餘人發明的表示:單詞,圖形,地圖,代數,數學圖表等。隨着咱們的成長,咱們將這些認知技術內化,並將它們做爲咱們思考的基礎。
在歷史的大部分時間裏,可用的認知技術範圍已經緩慢且漸進地發生了變化。將引入一個新詞或一個新的數學符號。更少見的是,將開發一種全新的認知技術。例如,在1637年,笛卡爾發表了他的「方法話語」,解釋瞭如何用代數表示幾何思想,反之亦然:
這使咱們對幾何和代數的思考方式發生了根本變化和擴展。
從歷史上看,持久的認知技術不多被髮明。但現代計算機是一種元媒體,能夠快速發明許多新的認知技術。考慮一個相對平庸的例子,好比Photoshop。熟練的Photoshop用戶一般會有之前不可能的想法,例如:「讓咱們將克隆圖章應用到這樣的圖層。」 這是一個更廣泛的思想類型的例子:「計算機,[新型動做]這種[新想象的一類物體的新表現形式]」。當這種狀況發生時,咱們正在使用計算機來擴展咱們能夠思考的思路。
正是這種認知轉化模式奠基了智力加強的最深層次工做的基礎。而不是外包認知,而是改變咱們用來思考的操做和表示; 它是關於改變思想自己的基礎。所以,雖然認知外包很重要,但這種認知轉換視圖提供了更爲深入的智力加強模型。這是一種觀點,其中計算機是改變和擴展人類思想的手段。
從歷史上看,認知技術是由人類發明者開發的,從蘇美爾和中美洲的寫做發明到道格拉斯·恩格爾巴特,艾倫凱等設計師的現代界面。
本文中描述的例子代表,AI系統能夠建立新的認知技術。當你想要一個新的字體時,像字體工具這樣的東西不只僅是要諮詢的神諭。相反,它們能夠用於探索和發現,提供新的表示和操做,這些表示和操做能夠做爲用戶本身思考的一部份內化。雖然這些例子處於早期階段,但他們認爲人工智能不只僅是認知外包。人工智能的另外一種觀點是可能的,它能夠幫助咱們發明新的認知技術,從而改變咱們的思惟方式。
在這篇文章中,咱們專一於少數幾個例子,主要涉及對潛在空間的探索。還有許多其餘人工智能加強的例子。給一些味道,而不是全面的用於神經網絡輔助繪圖; 這使用戶可以快速創建新的樂器和藝術系統;經過探索潛在的空間來開發動畫、機器學習設計模型和一個可以插值的生成模型。在每種狀況下,系統都使用機器學習來啓用能夠集成到用戶思惟中的新原語。更普遍地說,人工智能加強將利用諸多的領域。
咱們認爲機器學習系統能夠幫助建立表示和操做,做爲人類思想中的新原語。咱們應該在這些新原語中尋找什麼屬性?這個問題太大了,沒法在一篇短文中全面回答。但咱們將簡要探討一下。
從歷史上看,重要的新媒體形式在引入時一般看起來很奇怪 許多這樣的故事已經傳播到流行文化中:斯特拉文斯基和Nijinksy的「春天的儀式」首映的近乎騷亂; 由早期的立體派繪畫引發的驚愕,引領紐約時報 :「他們的意思是什麼?那些對他們負責的人是否已經離開了他們的感官?這是藝術仍是瘋狂?誰知道?」
另外一個例子來自物理學。在20世紀40年代,量子電動力學理論的不一樣表述由物理學家Julian Schwinger,Shin'ichirōTomonaga和Richard Feynman獨立開發。在他們的做品中,Schwinger和Tomonaga使用了傳統的代數方法,沿着與其餘物理學相似的方式。費曼使用了一種更爲激進的方法,基於如今所謂的費曼圖,描繪了光與物質的相互做用:
最初,Schwinger-Tomonaga方法對其餘物理學家來講更容易理解。當Feynman和Schwinger在1948年的研討會上展現他們的做品時,Schwinger馬上受到了好評。相比之下,費曼讓他的觀衆神祕莫測。正如James Gleick所說的那樣:
Feynman發現每一個人都有一個最喜歡的原則或定理,而且他都違反了這些原則...... Feynman知道他失敗了。當時,他很痛苦。後來他簡單地說:「個人東西太多了。個人機器來自太遠了。「
固然,僅僅爲了陌生而陌生是沒用的。可是這些例子代表,表明性的突破一開始每每顯得很奇怪。有任何潛在的緣由是真的嗎?
部分緣由是由於若是某些表示是真正新的,那麼它將顯得與您之前見過的任何不一樣。費曼的圖表,畢加索的畫做,斯特拉文斯基的音樂:都揭示了真正的新意義。良好的陳述能夠提高這些洞察力,讓熟悉的人們儘量生動地展現出新的東西。但因爲強調不熟悉,表現形式彷佛很奇怪:它表現出你之前從未見過的關係。在某種意義上,設計師的任務是識別核心的陌生感,並儘量地擴大它。
奇怪的陳述一般很難理解。起初,物理學家更喜歡Schwinger-Tomonaga和Feynman。但隨着費曼的方法被物理學家慢慢理解,他們意識到儘管施溫格 - 智多和費曼在數學上是等價的,但費曼更強大。正如格萊克所說:
Schwinger在哈佛大學的學生處於競爭劣勢,或者在其餘地方的同伴看來,他們懷疑他們無心中使用了這些圖表。這有時候是真的...... Murray Gell-Mann後來花了一個學期留在Schwinger的房子裏,後來喜歡說他處處尋找Feynman圖。他沒有找到任何,但有一個房間已被鎖定......
這些想法不只適用於歷史表徵,也適用於計算機界面。然而,咱們對錶現形式的陌生感的提倡與關於界面的許多傳統智慧相矛盾,特別是普遍認爲它們應該是「用戶友好的」,即新手簡單且可當即使用。這一般意味着界面是陳詞濫調,由標準方式組合的傳統元素構建。可是,雖然使用陳詞濫調的界面可能既簡單又有趣,但與閱讀公式化的浪漫小說相似。這意味着界面沒有透露任何真正使人驚訝的主題領域。所以,它對加深用戶的理解或改變他們的思惟方式幾乎沒有做用。對於平凡的任務,這是很好的,但對於更深層次的任務。
理想狀況下,界面將表現出主題背後最深層的原則,爲用戶揭示新的世界。當您學習這樣的界面時,您會將這些原則內化,爲您提供更強大的推理方式來推理這個世界。這些原則是你理解的差別。他們真的很想看到,其餘一切都是最好的支持,最糟糕的是不重要的渣滓。最好的接口的目的不是在某種淺層意義上用戶友好。它在更強的意義上是用戶友好的,關於世界,使它們成爲用戶生活和創造的工做條件。在那一點上,曾經出現過奇怪的東西能夠變得溫馨和熟悉,成爲思想模式的一部分。
這對於使用AI模型進行智力加強意味着什麼?
使人嚮往的是,正如咱們所見,咱們的機器學習模型將幫助咱們構建界面,以對用戶有意義的方式實現深層原則。爲了實現這一點,模型必須發現關於世界的深層原則,識別這些原則,而後在界面中以用戶可理解的方式儘量生動地表現它們。
固然,這是一個很高的命令!咱們展現的例子幾乎沒有開始這樣作。確實,咱們的模型有時會發現相對較深的原則,例如在加粗字體時保留封閉的負空間。但這僅僅隱含在模型中。雖然咱們已經構建了一個利用這些原則的工具,但若是模型自動推斷出所學的重要原則,並找到經過界面明確表示它們的方法,那就更好了。(鼓勵取得進展)使用信息理論思想來尋找潛在空間中的結構。)理想狀況下,這些模型將開始獲得真實的解釋,不只僅是靜態形式,而是動態形式,可由用戶操縱。可是從那時起咱們還有很長的路要走。
咱們很容易懷疑咱們所描述的接口的表現力。若是界面限制咱們只探索圖像的天然空間,那是否意味着咱們只是在作預期的?這是否意味着這些界面只能用於生成視覺陳詞濫調?它是否會阻止咱們從創造真正的創造性工做中產生任何真正新的東西?
要回答這些問題,找出兩種不一樣的創造方式是有幫助的。這種雙模式模式過於簡化:創造力並不徹底適合兩個不一樣的類別。然而,該模型澄清了新界面在創造性工做中的做用。
第一種創造方式是從事工藝的工匠的平常創造力。例如,字體設計師的大部分工做都包括對最佳現有實踐的有效重組。此類工做一般涉及許多創造性選擇,以知足預期的設計目標,但不會開發關鍵的新基礎原則。
對於這樣的工做,咱們一直在討論的生成接口是有但願的。雖然它們目前有許多侷限性,但將來的研究將識別並解決許多不足之處。這與GAN迅速發生:原始的GAN有許多限制,但很快出現的模型更適合圖像,提升了分辨率,減小了僞影, 等等。經過足夠的迭代,這些生成接口將成爲工藝工做的強大工具,這彷佛是合理的。
第二種創造方式旨在開發從根本上改變創造性表達範圍的新原則。人們在畢加索或莫奈等藝術家的做品中看到了這一點,他們違反了現有的繪畫原則,開發了新的原則,令人們可以以新的方式看待。
使用生成界面時,是否能夠進行此類創造性工做?難道這些界面不會將咱們限制在天然圖像或天然字體的空間中,從而積極地阻止咱們探索創造性工做中最有趣的新方向嗎?
狀況比這更復雜。
在某種程度上,這是關於咱們生成模型的力量的問題。在某些狀況下,模型只能生成現有想法的重組。這是理想GAN的限制,由於訓練有素的GAN生成器將重現訓練分佈。這樣的模型不能基於新的基本原理直接生成圖像,由於這樣的圖像看起來不像它在訓練數據中看到的那樣。
Mario Klingemann和Mike Tyka 等藝術家如今正在使用GAN創做有趣的藝術做品。他們正在使用「不完美」的GAN模型,他們彷佛能夠用來探索有趣的新原則; 也許狀況多是,糟糕的GAN可能比理想的GAN更具藝術趣味。此外,沒有什麼說接口必須只能幫助咱們探索潛在的空間。也許能夠添加操做,故意將咱們帶出潛在的空間,或者天然圖像空間的不太可能(以及更使人驚訝的)部分。
固然,GAN不是惟一的生成模型。在一個足夠強大的生成模型中,模型發現的歸納可能包含超出人類發現的想法。在這種狀況下,對潛在空間的探索可使咱們發現新的基本原理。該模型將發現比人類專家更強大的抽象。想象一下,在立體主義者的時代以前,一直在繪畫的生成模型; 多是經過探索這個模型,有可能發現立體主義嗎?如本文前面所討論的那樣,它將相似於玻色 - 愛因斯坦凝聚的預測。這樣的發明超越了今天的生成模型,但對於將來的模型彷佛是值得的。
到目前爲止,咱們的例子都是基於生成模型。可是有一些有啓發性的模型不是基於生成模型。考慮一下開發的pix2pix系統。該系統在成對的圖像上訓練,例如,顯示貓的邊緣的對和實際相應的貓。一旦通過訓練,就能夠顯示一組邊緣並要求生成實際相應貓的圖像。它常常作得很好:
當提供不尋常的約束時,pix2pix能夠產生醒目的圖像:
與咱們以前的例子不一樣,pix2pix不是一個生成模型。這意味着它沒有潛在的空間或相應的天然圖像空間。相反,有一個神經網絡,被稱爲混淆,一個生成器 - 這與咱們早期的生成模型沒有意義相同 - 將約束圖像做爲輸入,併產生填充圖像做爲輸出。
對發生器進行鍼對鑑別器網絡的訓練,其做用是區分由真實數據產生的圖像對和由發生器產生的圖像對。
雖然這聽起來相似於傳統的GAN,但存在一個相當重要的區別:發生器沒有潛在的矢量輸入 5。相反,只有一個輸入約束。當人類輸入一個不一樣於訓練中所見的約束時,網絡被迫即興發揮,盡其所能根據先前學到的規則來解釋該約束。創造力是從訓練數據推斷的知識的強制合併以及用戶提供的新穎約束的結果。所以,即便是相對簡單的想法 - 如麪包和旁觀者貓 - 也會產生引人注目的新型圖像,圖像不在咱們之前認爲的天然圖像空間以內。
人工智能將改變咱們與計算機交互的方式,這是傳統觀念。不幸的是,AI社區中的許多人都大大低估了界面設計的深度,常常將其視爲一個簡單的問題,主要是關於使事情變得漂亮或易於使用。在這種觀點中,界面設計是一個須要傳遞給他人的問題,而艱苦的工做則是培養一些機器學習系統。
此視圖不正確。最深的是,界面設計意味着開發人類思考和創造的基本原則。這是一個問題,其知識產生可追溯到字母表,製圖和音樂符號的發明者,以及現代巨人如笛卡爾,Playfair,費曼,恩格爾巴特和凱。這是人類在努力解決的最困難,最重要和最基本的問題之一。
如前所述,在人工智能的一個共同觀點中,咱們的計算機將繼續更好地解決問題,但人類將基本保持不變。在第二種常見觀點中,人類將在硬件層面進行修改,可能直接經過神經接口進行修改,或經過全腦仿真間接進行修改。
咱們已經描述了第三種觀點,其中AI實際上改變了人性,幫助咱們發明了新的認知技術,擴展了人類思想的範圍。或許有一天,這些認知技術將在一個良性反饋循環中加速AI的發展:
它不會是機器中的奇點。相反,它將是人類思想範圍內的奇點。固然,這個循環目前很是具備推測性。咱們所描述的系統能夠幫助開發更強大的思惟方式,但最多隻是間接意義上的這些思惟方式被用來開發新的AI系統。
固然,從長遠來看,機器可能會在全部或大多數認知任務上超過人類。即便是這種狀況,認知轉型仍然是一個有價值的目標,值得追求。即便機器作得更好,學習下棋或順利進行也有樂趣和價值。在講故事等活動中,利益每每不是做爲建築自己的過程和僞造的關係而產生的。除了工具性福利以外,我的變化和成長具備內在價值。
咱們討論的面向接口的工做不在用於判斷人工智能中大多數現有工做的敘述以外。它不涉及打破分類或迴歸問題的一些基準。它並無涉及使人印象深入的壯舉,例如在Go等遊戲中擊敗人類冠軍。相反,它涉及更主觀和難以衡量的標準:它是否有助於人類以新的方式思考和創造?
這給作這種工做帶來了困難,特別是在研究環境中。應該在哪裏發佈?一我的屬於哪一個社區?判斷此類工做應採用什麼標準?好的工做和壞的區別是什麼?
咱們相信,在將來幾年內,將出現一個回答這些問題的社區。它將舉辦研討會和會議。它將在Distill等場所發佈做品。它的標準未來自許多不一樣的社區:來自藝術和設計以及音樂社區; 來自數學界對抽象和良好定義的品味; 以及現有的AI和IA社區,包括計算創造力和人機交互方面的工做。成功的長期考驗將是創做者普遍使用的工具的開發。藝術家是否使用這些工具開發出非凡的新風格?其餘領域的科學家是否使用它們以其餘方式發展理解?這些都是偉大的願望。