說明:最新"谷歌AI智商不超過6歲"研究來自科學院而非康內爾大學

最近cnBeta等網站報道「據HotHardware報道稱,來自美國康奈爾大學一組研究人員對各大科技公司的人工智能型語音助手進行了橫向比較。研究人員發現,谷歌助手擁有目前語音助手類中最高的平均智商,IQ值約爲47.28,水準接近於人類六歲兒童。而蘋果的Siri語音助手的平均智商則較低,約爲23.9,考慮到Siri助手的誕生早於谷歌助手,谷歌近年來在AI研究領域的發展是非常令人印象深刻的,研究同時也提到了中國百度團隊的AI也取得了長足的進步。


這項研究的真實出處是中國科學院虛擬經濟與數據科學研究中心,由計算機博士,互聯網進化論作者劉鋒,中國科學院虛擬經濟與數據科學研究中心主任石勇教授,中國科學院經濟管理學院劉穎副教授組成的研究團隊完成,題目是「人工智能的智商評測與智能等級研究」(Intelligence Quotient and Intelligence Grade of Artificial Intelligence),研究論文發表在2017年Annals of Data Science期刊上。


10月初,這項研究成果受到包括CNBC,ZDNET,YAhoo等美國,德國,日本媒體的報道。如CNBC的報道內容如下;



對該項研究的報道中,HotHardware網站雖然正確的寫出論文研究者姓名,卻把研究成果的出處從「中國科學院虛擬經濟與數據科學研究中心「 錯誤的寫成"美國康內爾大學」.作爲頗有影響力的美國科技媒體,HotHardware出現這種錯誤實屬不該。




關於論文「人工智能智商和智能等級研究」的簡要介紹

1.AI智商研究的背景和麪臨的問題

這篇論文的研究開始於2012,起源是解決2010年以來不斷日益高漲的人工智能威脅論,當時的思路是能否通過對比研究人工智能系統的智商發展水平並與人類智商,爲解決人工智能威脅論問題尋找定量的分析方法。研究者爲中國科學院虛擬經濟與數據科學研究中心劉鋒,石勇和劉穎。

這個問題的解決面臨的最大問題是"第一,人工智能系統目前沒有形成統一的模型;第二,人工智能系統與以人類爲代表的生命體之間目前沒有形成統一的模型。",原有的人類智商測試也沒有相應的理論基礎可以直接使用到AI的智商評測上,這就需要我們首先解決人類和AI系統的模型統一問題。

2.建立標準智能模型

參考了馮·諾伊曼結構、戴維·韋克斯勒人類智力模型、知識管理領域DIKWData, Information, Knowledge, Wisdom)模型體系等。分別在2014年和2015年發表論文提出建立標準智能模型,統一描述人工智能系統和人類的特徵和屬性。

這個模型把任何一個智能體看做一個具有「知識的獲取,掌握,創新和反饋」的系統,區別在於每個智能體在這四個領域裏能力不同,從而導致智商評價的不同。如下圖所示。


3.2014年和2016年兩次AI和人類智商測試

爲了更好的分析AI,人類等智能體的智能水平,我們把「知識的獲取,掌握,創新和反饋」又分成15個小分類,從更多維度評測AI,人類的智能。這15個小分類是「圖像、文字、聲音的識別和輸出,常識、計算、翻譯、排列,創作、挑選、猜測、發現等」。根據這些分類在2014年對世界50個AI系統和3個不同年齡段人類進了測試

20162月,研究團隊開展2016年人工智能系統的智商測試」,目前已對谷歌、百度、搜狗等人工智能系統以及蘋果Siri、微軟小冰等進行了測試,工作還在進行中。不過從已完成的工作看,谷歌、百度等人工智能系統的性能比兩年前已有大幅提高,但仍與6歲兒童有一定差距。


雖然人工智能系統,這兩年得分增長很快。但在創造性這個大分類上,得分一直進展不大。而且這個分類的權重又比較高。從兩次測試看,人工智能系統在知識的掌握方面得分比較高。在知識的獲取和反饋方面有很大提高,但還有很多不足。到2018年我們做第三次測試時,大家基本上可以看到一個曲線。

4。標準智能系統數學模型和智能等級劃分

2017年發表的論文也根據「標準智能模型」建立了數學模型,描述智能系統的特徵。



基於這個模型也對人類,AI等智能系統進行了等級分類。

(I 知識信息接收,O知識信息輸出,S,知識信息掌握或存儲,知識信息創新創造)


1.對於人工智能系統的第0級系統,其基本特徵在理論上存在,但現實中並不存在這樣的人工智能系統。在擴展的馮·諾伊曼架構延伸出來的分級規則中,可以做一些組合,例如可以信息輸入,但不能信息輸出;或者可以信息輸出,但不能信息輸入;或者可以創新創造,但知識庫不能增長。對於這些在現實中不能或無法找到對應系統範例的案例,我們將其統一劃歸到人工智能系統的第0級系統,也可以叫人工智能系統的特異類系統

2.對於人工智能系統的第1級系統,其基本特徵是無法與人類測試者進行信息交互。例如有一種被稱爲泛靈論的思想認爲天下萬物皆有靈魂或自然精神,一棵樹和一塊石頭都和人類一樣,具有同樣的價值與權利。當然,這種觀點從科學的角度看,只能算作猜想或哲學思考。從能不能和測試者(人類)進行信息交互的分級規則看,因爲石頭等物體不能與人類進行信息交互,也許它內部有知識庫,能夠創新知識,或者能夠與其他石頭進行信息交互,但對人類測試者來說則是黑箱,不能讓人瞭解。因此不能與測試者(人類)進行信息交互的物體和系統可以定義爲人工智能系統的第1級系統,符合第1級分類的範例有石頭、木棍、鐵塊以及水滴等等不能與人類進行信息交互的物體或系統。

3.對於人工智能系統的第2級系統,其基本特徵是能夠與人類測試者進行交互,存在控制器和存儲器,但系統內部知識庫不能增長。因此很多家用電器被稱作智能家電,如智能冰箱、智能電視、智能微波爐和智能掃地機。這些系統大多有一個特點,即雖然它們內部或多或少有控制程序信息,但一旦出廠,就無法再更新它們的控制程序,不能進行升級,更不會自動地學習或產生新的知識。譬如智能洗衣機,人們按什麼鍵,洗衣機就啓動什麼功能。從購買到損壞,其功能都不會發生變化(故障除外)。這種系統能夠與人類測試者和使用者進行信息交互,符合馮·諾伊曼架構描述的特徵,而且它的控制程序或知識庫從誕生時起就不再發生變化,這種系統可以定義爲人工智能系統的第2級系統,範例包括日常見到的掃地機器人、老式的家用電冰箱、空調、洗衣機等等。

4.對於人工智能系統的第3級系統,其基本特徵是除具備2級系統的特徵外,其控制器、存儲器中包含的程序或數據可不聯網進行升級或增加。例如家用電腦和手機是我們常用的智能設備,它們的操作系統往往可以定期升級。例如,電腦的操作系統可從Windows1.0升級到Windows10.0,手機的操作系統可從Android1.0升級到Android5.0,這些設備的內部應用程序也可以根據不同的需要不斷更新升級。這樣,家用電腦、手機等設備的功能會變得越來越強大,可以應對的場景也越來越多。這一類系統明顯比第2級智能系統適應性更強。這種系統能夠與人類測試者、使用者進行信息交互,但不能與其他系統通過雲端進行信息交互,其控制程序或知識庫只能接受USB、光盤等外接設備進行程序或信息升級的系統,可以定義爲人工智能系統的第3級系統,範例包括智能手機、家用電腦、單機版的辦公軟件等。

5.對於人工智能系統的第4級系統,其基本特徵除了包含3級系統的特徵外,最重要的是可以通過網絡與其他智能系統共享信息和知識。2011年歐盟資助了一個叫作RoboEarth的項目,該項目旨在讓機器人可以通過互聯網分享知識。幫助機器人相互學習、共享知識,不僅能夠降低成本,還會幫助機器人提高自學能力、適應能力,推動其更快、更大規模地普及。雲機器人的這些能力提高了其對複雜環境的適應性。這類系統除了具備3級系統的功能,還多了一個重要的功能,即信息可以通過雲端進行共享,因此這種系統能夠與人類測試者、使用者進行信息交互,可以通過雲端進行信息交互,進行程序或信息升級。但這類系統所有的信息都是直接從外部獲得,其內部無法自主地、創新創造性地產生新的知識。這種系統可以定義爲人工智能系統的第4級系統,範例包括谷歌大腦、百度大腦、RoboEarth雲機器人、B/SBrowser/Server,瀏覽器/服務器)架構的網站等。

6.對於人工智能系統的第5級系統,最基本的特徵就是能夠創新創造,識別和鑑定創新創造對人類的價值,以及將創新創造產生的成果應用在人類的發展過程中。我們在擴展的馮·諾伊曼架構時,對原來的馮·諾伊曼架構增加了創新知識模塊,就是試圖把人納入到擴展的人工智能系統概念中,人類可以看作是大自然構建的特殊人工智能系統。與前四個等級不同,人類等生命體最大的特徵就是可以不斷地創新創造,如發現萬有引力、元素週期表,撰寫出新小說,創造新的音樂、畫作等等,然後通過文章、信件、電報,甚至互聯網進行傳播和分享。不斷地進行創新創造,並能夠識別創新創造對自身的用處,這讓人類佔據了地球生態環境下的智力制高點。因此,這種系統能夠與人類測試者使用者進行信息交互,可以創新創造出新的知識,並可以通過文章、信件、電報甚至互聯網這樣的雲端進行信息交互,這種系統可以定義爲人工智能系統的第5級系統。人類是第5級人工智能系統最突出的範例。

7.對於人工智能系統的第6級系統,最基本的特徵就是隨着時間的向前推進,並趨向於無窮點時,不斷創新創造產生新知識的智能系統其輸入輸出能力,知識的掌握和運用能力也將趨近於無窮大,按照基督教對於上帝的定義「全知和全能」,可以看出智能系統在不斷創新創造和不斷積累知識的情況下,在足夠的時間裏以人類爲代表的智能系統將最終實現「全知全能」的狀態,從這個角度看,無論是東方文化的」神「,或西方文化中的「上帝」概念,從智能系統發展的角度看,可以看作是智能系統(包括人類)在未來時間點的進化狀態。


5.論文對谷歌AlphaGo屬於智能的第幾等級進行的探討,

因爲AlphaGo可以與棋手進行比賽,具有龐大的運算系統和數據存儲系統,因此具備第2級系統的條件。在谷歌的研發過程中,AlphaGo的策略訓練模型版本通過不斷進行大量數據訓練而不斷升級,從20161月與歐洲冠軍對戰,到20163月與韓國圍棋世界冠軍李世石比賽,AlphaGo的軟硬件系統也獲得很大提升,因此AlphaGo具備了第3級系統的條件。

從公開的資料看,AlphaGo雖然可以通過網絡實現大量CPUGPU協同工作,但由於保密性或階段性問題,谷歌目前還沒有在互聯網上開放AlphaGo程序接受用戶的在線挑戰,因此AlphaGo不具備第4級智能系統條件。

關於AlphaGo是否具備創新創造性問題,我們認爲它依然是依託人工支持的大數據訓練形成的策略模型,同時在比賽中結合比賽對手的落點數據,根據其內部的運算規則,來不斷形成自己的落點數據,這些落點數據最終形成比賽數據集合。AlphaGo根據圍棋規則與對手的比賽數據集合進行計算和比較,判斷輸贏,整個過程完全在人類設定的規則下運行,無法體現其自身的創造性,如圖4所示。



即使AlphaGo形成的落點數據集合很可能是人類歷史上沒有出現過的,也不能說明AlphaGo具備了獨立的創新創造功能。例如,我們用計算機程序實現下述過程:從1萬到100萬的自然數中隨機選取兩個數進行相乘,記錄相乘結果,重複此過程361次,即使得出的自然數集合很大,並且可能是人類歷史上沒有出現過的,我們也不能認定該計算機程序具有創新創造性。

如果AlphaGo在沒有人類提供數據的情況下,能夠主動獲取棋譜,自動設計程序進行模擬對戰,學習經驗,並用於改變自己的訓練模型,用於實戰比賽,戰勝對手,那麼在這種情況下,我們纔可能認爲AlphaGo具備創新性。但從人工智能的發展過程看,AlphaGo還完全無法實現這一點。因此,綜合來看,AlphaGo的智能等級被評定爲3級,與人類相差兩個級別。


6,論文提到的該項研究的工作意義和後續工作

 對人工智能系統進行智商測試和智能等級分級,有助於我們更好地對這些智能系統進行分類和評判,同時爲低等級智能系統的發展方向提供支持。


根據上述研究我們可以每年利用人工智能智商測試方法相關智能系統進行測試,以此爲基礎分析不同測試對象的人工智能智商的發展狀況,從而發現這些同類產品在人工智能領域的發展差異,測試數據對於這些產品研究競爭對手發展趨勢將具有實用價值。另一方面,每年根據測試結果,選取智商最高的人工智能系統和人類測試者智商作爲代表,標註在圖6.1上。以此作爲判斷人工智能與人類智慧未來發展關係的基礎,從而作爲判斷前文提到的兩條人工智能發展曲線究竟那一條更符合客觀事實。

第三次世界範圍的AI系統智商測試將在2018年開始,通過測試檢驗人工智能發展水平,並繪製曲線。本次論文的線上發佈地址在DOI: 10.1007/s40745-017-0109-0