由 AlphaGo 到可自我進化的機器人宿接,比你預(yù)想的要快
人機大戰(zhàn)柯潔勝算不到一成恒傻,AlphaGo 身后的 TPU 殺傷力究竟有多強大淑际?
最后的攤牌之戰(zhàn)畏纲。
明天盗胀,升級版「 AlphaGo 2.0」將再次對戰(zhàn)人類頂級棋手,這次是排名世界第一的柯潔锄贼。深圳灣曾報道過去年的人機大戰(zhàn)票灰,AlphaGo 曾以 4:1 戰(zhàn)勝李世石,今年年初又偽裝成神秘棋手「Master」橫掃圍棋界宅荤,獲得 60 勝 1 和的記錄屑迂,包括打敗柯潔。
圍棋被認為是人類智慧最后的堡壘冯键,而柯潔是目前世界上排名第一的頂尖棋手惹盼,這場比賽也被形象的喻為「最后的攤牌之戰(zhàn)」。經(jīng)過前幾次的對弈惫确,人類與 AlphaGo 的實力懸殊之大已經(jīng)讓很多人不對人類獲勝抱有希望手报。中國棋壇另一位重要人物蚯舱,世界大賽「8 冠王」古力甚至直言,柯潔勝一局的希望不足 10% 掩蛤。
在去年谷歌I/O大會上枉昏,谷歌曾稱 AlphaGo 之所以能順利擊敗李世石,是因為有一款「秘密武器」揍鸟,那就是 TPU(Tensor Processing Unit)兄裂,一款專為谷歌深度學(xué)習(xí)系統(tǒng) TensorFlow 定制的 AI 芯片。 下面阳藻,深圳灣就帶您一起解開有關(guān) TPU 的秘密懦窘。
谷歌的一篇論文,揭秘 AIphaGo 背后的「秘密武器」
早在 2006 年 稚配,Google 就在考慮為神經(jīng)網(wǎng)絡(luò)構(gòu)建一個專用集成電路(ASIC)畅涂。 2013 年隨著數(shù)據(jù)量的急速膨脹,提高計算能力的需求開始變得更加迫切道川。
2015 年 11 月午衰,谷歌開源了其王牌機器學(xué)習(xí)系統(tǒng) TensorFlow,次年 3 月冒萄,應(yīng)用了 TensorFlow 深度學(xué)習(xí)系統(tǒng)的 AlphaGo 在「人機大戰(zhàn)」中一戰(zhàn)成名臊岸,也使得也使得這款 AI 學(xué)習(xí)系統(tǒng)及其硬件基礎(chǔ) TPU 聲名遠播。
作為一個云計算硬件和軟件系統(tǒng) 尊流,TPU 是專門為機器學(xué)習(xí)而設(shè)計的芯片帅戒,其出現(xiàn)的使命在于加速谷歌人工智能落地的速度。其第一代 TPU 被 AlphaGo 人工智能系統(tǒng)用作其預(yù)測和決策的基礎(chǔ)崖技,可提供高達每秒 180 萬億次浮點運算的性能逻住,大大加速了對單個大型機器學(xué)習(xí)模型的培訓(xùn)。
不久前在備受矚目的谷歌I/O 2017 開發(fā)者大會上迎献,谷歌又推出了第二代 TPU 升級版本瞎访,它比以往任何的 TPU 運行得都要快,而且可以加速訓(xùn)練和運行 ML 模型吁恍。
上個月扒秸,谷歌還專門發(fā)布了一篇論文,公布了 TPU 一些相關(guān)的技術(shù)細節(jié)冀瓦,并直接將比對的矛頭對準(zhǔn)了 AI 芯片巨頭英偉達伴奥,表示:「TPU處理速度比當(dāng)前 GPU 和 CPU 要快 15 到 30 倍」。
我們先來看看這篇論文談到的一些有關(guān) TPU 的要點翼闽,需要提及的是拾徙,下列數(shù)據(jù)是基于谷歌自己公司的標(biāo)準(zhǔn)測試得出的:
- TPU是一種ASIC,需要先用 GPU 訓(xùn)練神經(jīng)網(wǎng)絡(luò)肄程,再用 TPU 做推斷锣吼。
- TPU沒有與 CPU 密切整合选浑,而是設(shè)計成了一個PCIe I/O總線上的協(xié)處理器,可以像 GPU 一樣插到現(xiàn)有的服務(wù)器上玄叠。
- 在推斷任務(wù)中 古徒,TPU 平均比英偉達的 Tesla K 80 GPU 或英特爾 E5- 2699 v3 CPU 速度快 15 至 30 倍左右。
- 一個 TPU 的 MAC 是Tesla K 80 的 25 倍读恃,片上內(nèi)存容量達到K 80 的 3.5 倍隧膘,而且體積更小。
- TPU的功耗效率(performance/Watt寺惫,每耗電 1 瓦的性能)比 GPU 和 CPU 高出 30 至 80 倍疹吃。
- 如果對 TPU 進行優(yōu)化,給它和K 80 一樣大的內(nèi)存西雀,他的速度能比 GPU 和 CPU 高 30 - 50 倍萨驶,功耗效率高 70 - 200 倍。
論文鏈接:In-Datacenter Performance Analysis of a Tensor Processing Unit
這篇論文將在今年 6 月正式發(fā)表于多倫多舉辦的計算機體系結(jié)構(gòu)國際研討會(International Symposium on Computer Architecture, ISCA)上艇肴。傳言谷歌也曾考慮像微軟一樣用 FPGA腔呜,因為開發(fā)起來更加靈活。但是經(jīng)過測試之后發(fā)現(xiàn)速度提升不夠再悼。
谷歌 VS 英偉達核畴,一場看似硝煙彌漫的戰(zhàn)爭,實則各有未來
在谷歌的影響下冲九,其他科技公司也陸續(xù)看到了 AI 定制化芯片未來的發(fā)展?jié)摿Π荩两褚延袛?shù)十種類似的定制化 AI 芯片陸續(xù)問世。不僅如此莺奸,英特爾丑孩、微軟、三星也紛紛入局憾筏,這讓近年來在深度學(xué)習(xí)領(lǐng)域享有支配性地位的芯片供應(yīng)商 Nvidia 倍感壓力嚎杨。
為了做出反擊 ,Nvidia 也開始加強其新推的 GPU 芯片的定制化和專業(yè)性氧腰。在不久前英偉達 GTC 大會上 ,Nvidia 發(fā)布了基于新一代圖形架構(gòu) Volta 的Tesla V 100 刨肃。特斯拉 V 100 配備了 640 個 Tensor 內(nèi)核古拴,能提供提供了高達 120 teraflops 的、驚人的深度學(xué)習(xí)能力真友,它們是專為運行深入學(xué)習(xí)網(wǎng)絡(luò)中使用的數(shù)學(xué)運算而設(shè)計的黄痪。
作為芯片制造商的大客戶,谷歌揭幕 TPU 對 CPU 巨頭英特爾和 GPU 巨頭英偉達來說都是不小的商業(yè)壓力盔然。除了英偉達桅打,英特爾也在去年推出了適用于深度學(xué)習(xí)的處理器架構(gòu)和芯片是嗜,意欲擴張當(dāng)下的市場份額,抵擋谷歌帶來的沖擊挺尾。但是目前看來鹅搪,「定制芯片」的需求可能比他們預(yù)計還要更深。
但是遭铺,也許谷歌原本并無意參與這場競爭 丽柿。GPU 巨頭、英偉達 CEO 黃仁勛就曾告訴『華爾街日報』魂挂,兩年前谷歌就意識到 GPU 更適合訓(xùn)練甫题,而不善于做訓(xùn)練后的分析決策。谷歌打造 TPU 的動機只是想要一款更適合做分析決策的芯片涂召。這一點在谷歌的官方聲明里也得到了印證 :TPU 只在特定機器學(xué)習(xí)應(yīng)用中作輔助使用坠非,公司將繼續(xù)使用其他廠商制造的 CPU 和 GPU。
事實上果正,訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型麻顶,還是離不開 GPU 和 CPU。而對于 CPU 制造商而言舱卡,真正的挑戰(zhàn)是提供在考慮到能耗和效率的前提下辅肾,具有極高推理性能的芯片 。TPU 是一款推理芯片轮锥,其出現(xiàn)并不是為了取代 CPU 或者GPU矫钓,而是作為一種補充。
盡管如此舍杜,由于谷歌 TPU 論文引起的反響太大新娜,迫使感受到威脅的英偉達很快做出的回應(yīng)。英偉達回應(yīng)說 既绩,GPU 在機器學(xué)習(xí)的推理(inferencing)方面相對于 TPU 有一些優(yōu)勢概龄,還能用于機器學(xué)習(xí)中神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。英偉達的 GPU 更通用一些饲握,谷歌的 TPU 則比較專注于一個點私杜,應(yīng)用場景十分單一。
英偉達對谷歌在論文中進行的對比細節(jié)有些意見救欧,黃仁勛表示 衰粹,GPU 的通用性高一些 。 先是肯定 TPU 在深度學(xué)習(xí)的張量處理領(lǐng)域有一些重合笆怠,隨后通過一些細節(jié)來論證 GPU 相對于 TPU 的優(yōu)勢铝耻,這也算是一場無關(guān)緊要的撕逼吧。
此次 AlphaGo 再次對戰(zhàn)柯潔蹬刷,也是對谷歌 TPU 過去一年改進的一次檢驗瓢捉。無論這場比賽結(jié)果如何频丘,對于 TPU,對于TensorFlow泡态,乃至對于人工智能都不會是一個終點搂漠,而是一個嶄新的起點。