2016-08-26

Fccebook 開(kāi)源三款 AI 軟件，解決機(jī)器視覺(jué)「人和物傻傻分不清」的問(wèn)題

在人工智能這條路上，F(xiàn)acebook 也是實(shí)打?qū)嵉摹?/p>

深度學(xué)習(xí)已成為各大科技巨頭競(jìng)爭(zhēng)激烈的技術(shù)陣地，Google摊欠、百度丢烘、微軟等都在圖像識(shí)別競(jìng)技場(chǎng)中展開(kāi)了角逐。今日些椒，作為人工智能的積極開(kāi)拓者播瞳，F(xiàn)acebook 的人工智能研究實(shí)驗(yàn)室（FAIR）開(kāi)源了三款人工智能圖像分割軟件，分別為 DeepMask 分割架構(gòu)免糕、SharpMask 分各模塊（SharpMask 目前已遵循 BSD 授權(quán)協(xié)議在 GitHub上公開(kāi)源碼）赢乓、MultiPathNet 代碼。

這三款工具能共同完成一個(gè)完整的圖像分割處理流程：

DeepMask 生成初始對(duì)象 mask
SharpMask 提煉并優(yōu)化這些 mask
MultiPathNet 識(shí)別這些 mask 所框定的物體

圖像分割技術(shù)的作用

圖像分割技術(shù)不僅能夠識(shí)別圖片和視頻中的人物石窑、地點(diǎn)牌芋、物體，甚至能夠判斷它們?cè)趫D像中的具體位置（精確到像素級(jí)別）松逊。

為了實(shí)現(xiàn)這一技術(shù)躺屁，F(xiàn)acebook 使用了人工智能技術(shù)——機(jī)器學(xué)習(xí)，用大量的數(shù)據(jù)訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)经宏，以不斷提高其對(duì)新數(shù)據(jù)處理判斷的準(zhǔn)確性楼咳。在開(kāi)源這三款圖像分割軟件工具之前，F(xiàn)acebook 還曾在 Torch 上開(kāi)源了一些功能強(qiáng)大的深度學(xué)習(xí)工具烛恤。

讓計(jì)算機(jī)能夠像人眼一樣識(shí)別圖中的多種物體

在過(guò)去幾年時(shí)間里，深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展余耽，以及強(qiáng)大的計(jì)算架構(gòu)缚柏，使得機(jī)器視覺(jué)系統(tǒng)的精度進(jìn)一步得到提升。

而圖像識(shí)別也經(jīng)歷了圖像分類（a）- 物體檢測(cè) （b）的過(guò)程碟贾，F(xiàn)acebook 所研究出的圖像分割技術(shù)可清楚的分割每一個(gè)物體币喧，如（c）圖所示

下面來(lái)講一下圖像分割技術(shù)實(shí)現(xiàn)的過(guò)程：

對(duì)于一張圖片而言轨域，人眼可以清楚的區(qū)分人、天空杀餐、草地干发、樹(shù)木等，但機(jī)器人不能史翘。為了讓機(jī)器能「看到」這些物體枉长，一張圖片會(huì)被編碼成數(shù)字組，每一個(gè)像素點(diǎn)都有一個(gè)值代表一個(gè)顏色（如下圖所示）琼讽。但是必峰，現(xiàn)實(shí)世界中的物體和場(chǎng)景也會(huì)隨時(shí)隨刻發(fā)生變化，這進(jìn)一步加大了機(jī)器識(shí)別的難度钻蹬。

深度網(wǎng)絡(luò)經(jīng)過(guò)了上百萬(wàn)個(gè)模板的學(xué)習(xí)吼蚁，能夠的圖像進(jìn)行分類，回答「是」與「否」的問(wèn)題问欠，如「圖片中是否有羊肝匆？」

物體分割

DeepMask 可把圖片分割當(dāng)做一個(gè)海量的二進(jìn)制分類問(wèn)題。對(duì)于圖像中重疊的片區(qū)顺献，則使用深度網(wǎng)絡(luò)來(lái)回答：「這一片是否含有物體」旗国，以及進(jìn)一步的問(wèn)題「該片中的某一像素點(diǎn)，是否為該片中心物體的一部分滚澜？」粗仓。達(dá)到快速分割圖像中物體的目的。

現(xiàn)深度網(wǎng)絡(luò)中更上的層會(huì)捕捉到更多的語(yǔ)義概念设捐，如動(dòng)物的臉和四肢借浊。這些更上一些層的特征被設(shè)置在一個(gè)相對(duì)低的空間分辨率中計(jì)算。但這產(chǎn)生了一個(gè)掩碼預(yù)測(cè)（mask prediction）的問(wèn)題：更上的層雖然能捕捉物體大概的形狀掩碼萝招，但不能精準(zhǔn)的抓取物體的邊界蚂斤。

而 SharpMask 則可以對(duì) DeepMask 輸出的圖像進(jìn)行提煉，生成高保真槐沼、并能精準(zhǔn)的勾畫物體邊界的掩碼曙蒸。就如下圖所示的一些案例（其中紅色部分為圖片中與物體真實(shí)物體邊界能夠完全對(duì)齊的預(yù)測(cè)掩碼，也是 DeepMask 所捕捉不到的）岗钩。

物體分類

DeepMask 能夠區(qū)分物體纽窟，但不能分辨出它們具體是什么物品，另外兼吓，DeepMask 并不非常具有選擇性臂港，也可能會(huì)生成并不特別相關(guān)的圖像區(qū)域掩碼。所以，得進(jìn)一步縮小相關(guān)掩碼的選擇范圍审孽，從而識(shí)別出真正的物體县袱。

這還得讓深度網(wǎng)絡(luò)給定一個(gè) DeepMask 生成的掩碼，因此佑力，F(xiàn)AIR 專門訓(xùn)練了一個(gè)單獨(dú)的深度網(wǎng)絡(luò)式散，用于對(duì)掩碼的物體類型進(jìn)行分類。這其中遵循了一個(gè)名為 Region-CNN (RCNN）的基本范式打颤，該范式由 FAIR 的一名成員——Ross Girshick 創(chuàng)造暴拄。

RCNN 是一種兩階段的程序，在第一階段瘸洛，其將注意力集中到的特定的圖像區(qū)域揍移，在第二階段，深度網(wǎng)絡(luò)識(shí)別存在的物體反肋。其中那伐，在 RCNN 的第二階段，F(xiàn)AIR 使用了專用網(wǎng)絡(luò)架構(gòu)對(duì)掩碼進(jìn)行分類石蔗，以提升其性能罕邀。

最終，對(duì)于圖像中背景雜亂养距、物體尺寸等問(wèn)題诉探，利用可允許信息沿多條路徑穿過(guò)網(wǎng)絡(luò)的 MultiPathNet ，進(jìn)一步挖掘圖像背后的信息棍厌。

圖像分割技術(shù)還有更多的應(yīng)用

除了社交軟件（圖像肾胯、視頻等）外，圖像分割技術(shù)有著重要意義耘纱，例如讓計(jì)算機(jī)自動(dòng)識(shí)別圖片中的物體敬肚，以提高圖片搜索的效率和準(zhǔn)確率。失去視覺(jué)的人也能通過(guò)系統(tǒng)了解圖片內(nèi)容束析。

目前艳馒，F(xiàn)AIR 還在繼續(xù)改進(jìn)這項(xiàng)技術(shù)算法，在未來(lái)员寇，這套圖像檢測(cè)弄慰、分割、識(shí)別技術(shù)還將有可能應(yīng)用于商務(wù)蝶锋、健康等領(lǐng)域陆爽。

人工智能

機(jī)器視覺(jué)

Facebook

深圳灣（微信公眾號(hào) ID：shenzhenware）是最早也是最活躍的硬件創(chuàng)新社區(qū)和媒體，關(guān)注「軟件+硬件」帶來(lái)的場(chǎng)景和交互創(chuàng)新扳缕，以及與平臺(tái)和應(yīng)用相連的產(chǎn)業(yè)鏈升級(jí)墓陈。

版權(quán)聲明：本文系深圳灣原創(chuàng)恶守，轉(zhuǎn)載或摘錄請(qǐng)先獲得授權(quán)。
深圳灣微信公眾號(hào)：shenzhenware贡必。深圳灣同時(shí)在頭條號(hào)、企鵝號(hào)庸毫、知乎等主流媒體站開(kāi)設(shè)專欄板塊仔拟，歡迎關(guān)注。轉(zhuǎn)載飒赃、約稿利花、投稿、團(tuán)隊(duì)報(bào)道請(qǐng)?jiān)诠娞?hào)對(duì)話框回復(fù)關(guān)鍵字并留下聯(lián)系方式载佳。

上一篇：關(guān)于今年 Maker Faire Shenzhen 你知道得還不夠炒事，你得去！

下一篇：安全防護(hù)層層加碼蔫慧，新一代耐用戰(zhàn)神 OPPO A5 Pro 正式開(kāi)售