安全防護層層加碼川陆,新一代耐用戰(zhàn)神 OPPO A5 Pro 正式開售
自學抓取物體的機械臂,Google機器學習再次震驚世界
或許與圍棋連勝兩局地球上最聰明的人之一相比,抓取物體聽起來并沒有那么酷炫——畢竟我們大多數人不會手滑拿不住一個杯子须教,就連一個2歲小孩也能夠學會把地上的玩具撿起來。不過倘若說這背后所涉及到的方式方法與AlphaGo戰(zhàn)勝李世石所用的是一個模子里面刻出來的,你是否就會有些興趣了呢轻腺?
這兩者的背后都使用了強化學習 (reinforcement learning) 的算法乐疆。什么叫做強化學習呢?我們打個比方:當你在訓練狗狗坐下的時候贬养,如果它做出對的動作挤土,你會給它一塊小餅干,跟它說“乖寶寶”误算;如果它做錯了仰美,它將沒有餅干,或者輕輕的被你拍一下頭儿礼;經過長時間的訓練之后咖杂,它就知道坐下,就能夠得到獎勵蚊夫。這對于機器來講也是一樣的诉字,只不過對它而言小餅干,就是一個對未來收益的預期知纷,而它的目標就是如何做出對的選擇壤圃,來最大化這個收益。
有了基本的概念之后琅轧,我們再來看一下維基百科嚴格的定義:強化學習是機器學習中的一個領域伍绳,強調如何基于環(huán)境而行動,以取得最大化的預期利益乍桂。其靈感來源于心理學中的行為主義理論冲杀,即有機體如何在環(huán)境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預期睹酌,產生能獲得最大利益的習慣性行為权谁。換言之,只要我們能夠有效的區(qū)分“好”和“壞”忍疾,那么我們就可以用增強學習的方法闯传,讓機器在不斷的實驗中谨朝,逐漸學會做出“好”的行為卤妒。
這種方法與傳統(tǒng)程序編寫的最大區(qū)別就在于,傳統(tǒng)意義上的程序是通過分析以及一系列的if-else來表達我們對于事情的理解字币,換言之则披,這種方法最大的弊端就是,倘若我們不能夠清晰的梳理出一件事情為什么這樣做的時候洗出,我們便無從成功的讓機器模仿做出類似的行為士复,更無法處理形形色色的突發(fā)意外情況。然而強化學習的方法則我們只需要提供一個“足夠好”的初始條件,接下來阱洪,讓機器自己在無數次的失敗中調整便贵、學習就好。就拿圍棋來說冗荸,研究人員無需先成為圍棋的個中高手承璃,AlphaGo在與李世石對決以前,它已經和自己下了以百萬為單位局的圍棋蚌本,并從自己身上學到了無數的教訓了盔粹。同樣,我們無須理解我們是如何能夠抓起形形色色的物體的程癌,研究人員觀察到800,000的練習之后舷嗡,機器開始學會硬的物體要抓邊緣,柔軟的物體則可以捏著中間嵌莉,甚至一些形狀不規(guī)則或者被擋住的物體进萄,它們還會先把障礙清開,是不是很聰明呢烦秩?有興趣的朋友可以看看論文的原文垮斯。
當然除了研究上的意義,我更關心的是只祠,這將給工業(yè)界帶來怎樣的震動兜蠕。畢竟,我們很多決策問題都有類似明確的“好”與“壞”的標準抛寝,而倘若我們能夠恰當的把增強學習的方法帶入到應用當中熊杨,或許人和機器的分工又將再一次被深刻的改變。