謝選駿：人工智慧還是人類智能

2017年05月29日 9:03 PDF版分享轉發

作者：謝選駿

人工智慧還是人類智能，是從自然智能裏面派生出來的，無法脫離生物圈而存在的。

《【柯潔戰敗解密】AlphaGo Master最新架構和演算法，谷歌雲與TPU拆解》（2017-05-24新智元）說那烏鎮（烏何有之鄉的鎮）人工智慧峰會進入第二天，哈薩比斯、David Silver和Jeff Dean等谷歌高管紛紛發表演講。他們對AlphaGo2.0的新技術進行了詳細解讀。幾位“谷歌人”紛紛提到一個關鍵詞——TPU。Jeff Dean甚至直接放出了與GPU的性能對比圖。從昨天的賽后採訪到今天的主旨演講，哈薩比斯等人一直在強調TPU對新版本的AlphaGo的巨大提升。看來，TPU將會成為接下來一段時間內谷歌的戰略重點，GPU要小心了。本文帶來哈薩比斯、David Silver現場演講報道。

在升級版AlphaGo首戰柯潔后的5月24日，中國烏鎮人工智慧高峰論壇（The future of AI in Wuzhen）如期召開。一上來就是DeepMind CEO Demis Hassabis和AlphaGo團隊技術負責人 David Sliver的演講，介紹AlphaGo的研發以及AlphaGo意味著什麼。新智元第一時間為你帶來精彩內容。

Hassabis和Sliver演講后，谷歌大腦資深研究員Jeff Dean和Google軟體工程師陳智峰一起介紹了《什麼是AI？AI是如何工作的？》。不僅如此，還有很多耳熟能詳的谷歌、DeepMind大牛出席了本次烏鎮人工智慧高峰論壇：Alphabet董事長Eric Schmidt（對話AI的潛能）、下午還有TensorFlow軟體工程師Rajat Monga（開發者如何使用AI）、谷歌Cloud& AI研發主管李佳（行業如何應用AI），以及DeepMind聯合創始人Mustafa Suleyman和谷歌健康研究產品經理Lily Peng（如何應用AI應對挑戰：健康、能源、教育等）。

在論壇最後，烏鎮智庫秘書長李小鳴將在大會上發布報告《全球人工智慧報告2017》。

柯潔與AlphaGo終極對決，谷歌或成最大贏家

“AlphaGo外交”，谷歌向中國示好

彭博社對昨天的圍棋大戰進行報道時，形成“AlphaGo和柯潔的圍棋大戰已經成了 Google的‘AlphaGo外交’”，算是 Google改進和中國關係的最新努力。報道稱， Google專家和中國著名學者將展開交流討論，議題是 DeepMind的不可戰勝的圍棋 AI AlphaGo和柯潔之間的對局。谷歌在中國缺席已久。它最初退出源自對審查制度和網路攻擊的擔憂，而今這種缺席成了其在全球搜索和視頻方面霸主地位的最大短板。雖然 Android是中國最受歡迎的手機軟體，有一定的廣告收入，但其他服務，比如搜索、Gmail、應用商店和地圖都被中國大陸的防火牆所禁止。然而，關於其捲土重來、和 Android應用商店或其可搜索的學術知識資料庫 Google Scholar建立夥伴關係的猜測，從未停止。

“很高興回到中國，我對這個國家深表欽佩。”施密特在峰會上向來賓和行業高管們表示，“呈現在大家眼前的是一個改變世界的非凡機會。”外媒普遍認為，此次圍棋峰會是谷歌向中國示好的一個標誌。

由施密特擔任主席本次活動是在政府舉辦年度世界互聯網大會的同一地點舉行的，選擇這裡是政府要進一步表達對互聯網的認識。峰會標志著一系列 Google重新融入中國的最新努力：2016年，Google首席執行官Sundar Pichai表示，該公司想要重新為中國本地用戶服務。同時，Google在中國各個城市定期舉辦活動，吸引開發者。

去年，AlphaGo贏得了與李世石的圍棋比賽，在中國的社交媒體引發了 AI系統是否可以擊敗中國頂尖棋手的討論。谷歌希望本周在烏鎮展示出機器智能的最新成就，Google DeepMind的聯合創始人兼 CEO哈薩比斯在最近一篇博文中寫道：峰會的目的是討論AlphaGo背後的機器學習方法如何幫助解決現實世界的問題，如能源消耗。施密特則在會上表示：“ Google和 Alphabet呈現給大家的是我們一直在做的事情——AI。”

2.哈薩比斯，David Silver和 Jeff Dean的關鍵詞——TPU

上周的I/O大會上，谷歌CEOPichai宣布推出的第二代 TPU，既能夠加速推理，也能夠加速訓練。

據介紹，第二代 TPU設備單個的性能就能提供高達180 teraflops的浮點計算量。不僅如此，谷歌還將這些升級版的 TPU集成在一起成為CloudTPU。每個 TPU都包含了一個定製的高速網路，構成了一個谷歌稱之為“TPU pod”的機器學習超級計算機。一個TPU pod包含64個第二代TPU，最高可提供多達11.5 petaflops，加速對單個大型機器學習模型的培訓。

Ad：美好不容錯過，和家人朋友一起享受愉快時光，現在就訂票

昨天，在升級版的阿老師（AlphaGo）半目優勢取勝柯潔之後，DeepMind CEO哈薩比斯和AlphaGo項目總負責人David Silver在新聞發布會上接受媒體採訪時表示，AlphaGo實際上是在谷歌雲端的單一一台機器上運行的，建立於TPU上。這和去年使用的谷歌雲端多台機器分散式結構有很大區別。因為現在有了一個運行起來更好、更簡單的更加強大、高效的演算法，它能夠用十分之一的運算力來得到更強大甚至更好的結果。

5月24日的峰會論壇主旨演講中，David Silver再次提到，新版AlphaGo（DeepMind稱之為 AlphaGo Master）是在單個TPU上進行遊戲。他還提到了新版本的AlphaGo與去年對戰李世石的舊版使用的計算資源的區別，由此看出TPU的強大。

David Sliver之後，谷歌大腦負責人Jeff Dean出現在舞台上，他的演講話題也沒離開TPU。

從DeepMind和谷歌的幾位負責人的演講中可以看到的關鍵詞有三個：AlphaGo、TPU和谷歌雲。在提到TPU時，直接放出了與GPU的性能對比，形象生動。這個廣告，可以打99分吧。

首戰擊敗柯潔后，DeepMind在發布會上說了6件大事

5月23日，在AlphaGo首戰以四分之一子的優勢戰勝柯潔之後，雙方參加了新聞發布會。

柯潔賽后感言：遇到了“圍棋上帝”，比賽中早就預料到結果

柯潔在賽后發布會表示，自己印象最深的，是AlphaGo自己“斷”的那手棋，在人類的對局中幾乎不可能，但他後來思考發現那步棋“太出色”，“讓人輸得沒脾氣”。另外，這次的AlphaGo讓他感覺像是遇到了圍棋“上帝”，與之前的Master都不同。最後，他對自己“永遠有信心”，會全力以赴去下接下來的兩盤棋。

柯潔在數子時被媒體捕捉到“笑”了一下，在發布會上坦言那是“哭笑”。實際上他很早就知道結果了，主要是AlphaGo下棋是勻速的，因此在單關也花費比較多時間思考，所以柯潔在這個空檔拚命數子，料到自己會輸，最後果然輸了1/4子。

DeepMind：演算法比數據量更重要，AlphaGo的架構細節稍後會全面公開

DeepMind的賽后感言可歸納為以下幾點：

1.DeepMind對於“機機大戰”沒有興趣——要衡量 AlphaGo的實力，必須讓它跟人類對弈。這次比賽的目的也是為了發現AlphaGo的更多弱點。李世石上次贏了AlphaGo，他們回去以後就對架構和系統做了升級，希望能彌補這種“knowledge gap”。當時的弱點或許被“Fix”了，但AlphaGo還有更多弱點，這是AlphaGo自己（通過自我對弈）和他們這些開發人員都不知道的。

2.AlphaGo不會控制輸贏差距，它只想贏。AlphaGo總是盡量將贏棋的可能性最大化而不是將贏的目數最大化。它每次面臨決策的時候，總是會選擇它自己認為更穩妥、風險更小的路線。AlphaGo在爭取贏棋時的一些行為，它可能會放棄一些目數以求降低它感知到的風險，即使這個風險非常小。

3.沒有完全棄用人類棋譜。當然在最初的版本中，AlphaGo從人類棋譜中學習，後來到現在它大部分的學習材料都來自於自我對弈的棋譜。新版本AlphaGo的一大創新就是它更多地依靠自我學習。在這個版本中，AlphaGo實際上成為了它自己的老師，從它自己的搜索中獲得的下法中學習，和上一個版本相比大幅減少了對人類棋譜的依賴。

4.AlphaGo這次強大的地方在於演算法。去年和李世石對戰後，他們提出了更強大的演算法，而且發現演算法比數據量更重要，這也是為什麼Master的訓練速度是初代AlphaGo的十分之一。這次AlphaGo的硬體支撐是統一通過谷歌雲來的，跟上次對戰李世石的時候不同。

5.AlphaGo實際上是在谷歌雲端的單一一台機器上運行的，建立於TPU上。這和去年使用的谷歌雲端多台機器分散式結構有很大區別。因為現在有了一個運行起來更好、更簡單的更加強大、高效的演算法，它能夠用十分之一的運算力來得到更強大甚至更好的結果。

6.還會公布一些AlphaGo自我對弈的棋譜，這周稍後會正式宣布。

哈薩比斯：AlphaGo研發介紹， AlphaGo意味著什麼？“希望這周的比賽能夠激發中國的圍棋棋手和世界的人工智慧科學家”。哈薩比斯介紹了DeepMind在做的事情，以及他們的目標——“發現智能的本質”（slove intelligence），他將最新版 AlphaGo的技術細節留給了 David Sliver具體闡釋。哈薩比斯提到，在DeepMind，他們研究的不是一般的人工智慧（AI），而是通用智能，或者說通用的學習機器。這種機器具有自主學習的能力，可以執行多種任務，而其技術核心就是深度學習和強化學習。哈薩比斯認為，只要創造出通用的學習機器，就能夠解決很多現在所無法解決的問題。他以載入史冊的IBM深藍對戰國際象棋大師卡斯帕羅夫為例，深藍當時獲勝的根本原因是暴力計算。哈薩比斯認為，與圍棋不同，國際象棋是一種盤面已知的遊戲，也就是說，最開始所有的棋子都在棋盤上，當你判斷局勢時，所有的信息都已經有了。而圍棋則是不斷構築的遊戲，要判斷在哪裡落子，很多時候頂尖圍棋手會告訴你，他們依靠的是直覺，“就感覺這樣走是對的”。

剛開始的不經意一步，很可能對未來的形勢造成巨大乃至根本性的影響。

Sliver首次揭露了AlphaGo Master版本的新架構和演算法

Sliver還是先從最初的AlphaGo講起，為什麼DeepMind團隊會選擇圍棋攻克呢？Sliver表示，圍棋是人類最古老最有智慧的遊戲，也是測試、構建並且理解人工智慧最好的方式。實際上，遊戲被用於測試人工智慧由來已久，計算機科學家先從國際象棋入手，到了現在的圍棋。。而且，這些遊戲AI的很多演算法後來也被應用於各種各樣的AI程序和應用。最後，圍棋為譽為AI的聖杯，就像Demis剛剛說的那樣。

形象化的比較，國際象棋的選擇是有限的，每一步都大約有30多種選擇，然後再下一步又有30多種選擇，以此類推。實際上，國際象棋的這種樹形結構很適合用傳統的計算機方法去搜索並解決。而圍棋的選擇則要多得多，每一步都有幾萬種走法（several hundreds），而下一步又有幾萬種······由此形成的排列組合，對於傳統的計算機或人工智慧而言是無解的。

DeepMind是如何解決這個問題的呢？初版AlphaGo，也就是戰勝了李世石的那個版本，核心是兩個深度神經網路。深度神經網路有很多參數，這些參數可以通過訓練進行調整，從而很好地對知識進行表徵，真正理解領域里發生了什麼事情。我們希望AlphaGo能夠真正理解圍棋的基本概念，並且全部依靠自己學習這些概念。

具體說，AlphaGo用了卷積神經網路，可以從每一層的一小塊當中，得出一些更高層的理解，你可以簡單理解為表示棋子在這種局勢下會贏還是會輸的特徵，然後每一層以此類推，最終得到高層表徵，也就是AlphaGo學會的概念。初版AlphaGo使用了12層網路，而Master版本的使用了40層。

AlphaGo使用兩種不同的深度神經網路，第一種是策略網路，目標是選擇在哪裡落子。第二種則是價值網路，價值網路的作用是衡量走這一步對最終輸贏的影響：棋盤的局部（patches）經過很多層很多層的表徵處理，最終得出一個數字，這個數字就是代表這步棋會贏的概率，概率越大（接近1），那麼AlphaGo獲勝的概率就越大。

AlphaGo訓練的過程，實際上結合了兩種機器學習，首先是監督學習，其中人類棋譜被用作訓練數據，然後結合強化學習，在強化學習過程中，系統通過試錯不斷提升自己，弄清哪種策略最好。這張圖顯示了AlphaGo的訓練過程，先從大量的人類專家下棋的訓練數據集開始，我們讓策略網路所做的，就是學習人類專家的走法，不斷調整參數，最終在每個位置走出跟人類專家一樣的走法。

這就是策略網路，我們用策略網路做強化學習，也就是讓策略網路不斷自我對弈，在很短的時間里掌握什麼是最好的下法。然後，我們用價值網路判斷，每一步是黑棋贏還是白棋贏，就像人類專家通過直覺判斷是否該這樣走一樣。

如果像往常一樣，我們要去判斷每一步贏的幾率，那麼計算力是不夠的。在AlphaGo這裏，我們結合策略網路和價值網路，大幅降低了搜索的難度。首先，我們用策略網路減少了搜索的寬度，然後用價值網路減少了搜索的深度。

這兩種搜索演算法的結合，也被稱為蒙特卡洛樹搜索方法，AlphaGo先使用策略網路選擇怎麼走，然後用價值網路判斷這樣走的贏率，最終得出一個數字。這個模擬過程會重複很多次，計算出每種不同走法的贏率。然後，這些數字會被傳回一開始的部分，讓系統決定走哪一步贏率最大。

上面說的這些就是跟李世石對戰的AlphaGo的大致步驟。這張圖顯示了當時AlphaGo使用的硬體或者計算力支撐，使用了大約50塊TPU，能夠搜索（結合圖中顯示的數字）。看到這個數字你也許會認為AlphaGo做的計算量很大了，但實際上深藍當時做的是AlphaGo的要做得多，每秒做上億次計算。因此，可以說AlphaGo做的計算比深藍要“更聰明”，更謹慎。

接下來我介紹新版AlphaGo，也被稱為AlphaGo Master，這次對戰柯潔的新版AlphaGo。AlphaGo Mater使用更加有效的演算法，所需的計算量是AlphaGo的1/10。這張圖顯示了AlphaGo Mater使用的硬體，通過谷歌雲提供的一塊TPU，你可以把它當做是一台計算機。

而使Master如此強大的原因之一，是我們使用了最好的數據——AlphaGo自我對弈的數據。所以，AlphaGo實際上成了自己的“老師”，每一代生成的數據都成為下一代、更強一代的訓練材料。我們使用這一過程，訓練了更強大的策略網路和價值網路。

具體說，我們讓AlphaGo自我對弈，也就是通過強化學習，生成大量數據，訓練下一代的AlphaGo。這時，策略網路就使用它自己生成的數據，在不進行任何搜索的情況下，自己訓練自己得出最強大的走法，由此得出了目前最強大的策略網路。

類似的，我們也這樣訓練價值網路，我們使用AlphaGo自我對弈后獲勝的那些數據來作為訓練樣本，這些都是質量很高（最高）的樣本，裏面含有大量每局AlphaGo自我對弈中每一步走法贏率判斷的信息。換句話說，新的價值網路會判斷Master每一步的最終贏率是多少。

然後，我們將上述過程重複多次，不斷得到新的價值網路和策略網路，AlphaGo也能不斷做出更高效的搜索質量和更好地判斷勝率。

那麼，我們怎麼衡量AlphaGo的能力呢？我們最初用Zen和進行對比，後來是樊麾，再到李世石，以及線上對戰平台。但是，只通過自我對弈是無法找出AlphaGo的弱點的。這也是我們今天來烏鎮對戰柯潔的原因。當然，深度強化學習也不僅僅用在圍棋上，還有遊戲中。

······

謝選駿指出：上文說了半天，無非說明了它自己不想說明甚至激勵掩蓋的一個道理——所謂“人工智慧”其實還是一種“人類智能”，是無法脫離人的自然智能而存在的一種電子遊戲；所謂“人機大戰”其實不過是“一群人和一個人的戰爭”。這群外行的人通過操縱機器，來打敗了內行的人。

在這種意義上，人們不必擔心什麼“機器人有朝一日會主宰人類的命運”，就像癱子霍金所渲染的恐怖故事那樣。因為說到底，即使那樣成真，那也不過是一群人對其他人的控制罷了。當然，任何問題都有不同的方面。從另外的方面來說，你也可以說，其實不用等到未來了，我們現在已經被機器控制了，再也無法擺離線器而獨自生存了。但是這種控制不是癱子所渲染的恐怖主義的控制，而是我們自願接受的一種奴役——你玩弄手機的時候，你就是手機的奴隸；你佔有了什麼，你就是什麼的奴隸······這是一種自願的奴役，不是機器強迫你的。

所以說，人工智慧還是人類智能，是從自然智能裏面派生出來的，無法脫離生物圈而存在的。

交流評論、關注點贊

謝選駿：人工智慧還是人類智能

熱門禁書