安全防護(hù)層層加碼挠乳,新一代耐用戰(zhàn)神 OPPO A5 Pro 正式開(kāi)售
Fccebook 開(kāi)源三款 AI 軟件,解決機(jī)器視覺(jué)「人和物傻傻分不清」的問(wèn)題
在人工智能這條路上,F(xiàn)acebook 也是實(shí)打?qū)嵉摹?/p>
深度學(xué)習(xí)已成為各大科技巨頭競(jìng)爭(zhēng)激烈的技術(shù)陣地,Google摊欠、百度丢烘、微軟等都在圖像識(shí)別競(jìng)技場(chǎng)中展開(kāi)了角逐。今日些椒,作為人工智能的積極開(kāi)拓者播瞳,F(xiàn)acebook 的人工智能研究實(shí)驗(yàn)室(FAIR)開(kāi)源了三款人工智能圖像分割軟件,分別為 DeepMask 分割架構(gòu)免糕、SharpMask 分各模塊(SharpMask 目前已遵循 BSD 授權(quán)協(xié)議在 GitHub上公開(kāi)源碼)赢乓、MultiPathNet 代碼。
這三款工具能共同完成一個(gè)完整的圖像分割處理流程:
- DeepMask 生成初始對(duì)象 mask
- SharpMask 提煉并優(yōu)化這些 mask
- MultiPathNet 識(shí)別這些 mask 所框定的物體
圖像分割技術(shù)的作用
圖像分割技術(shù)不僅能夠識(shí)別圖片和視頻中的人物石窑、地點(diǎn)牌芋、物體,甚至能夠判斷它們?cè)趫D像中的具體位置(精確到像素級(jí)別)松逊。
為了實(shí)現(xiàn)這一技術(shù)躺屁,F(xiàn)acebook 使用了人工智能技術(shù)——機(jī)器學(xué)習(xí),用大量的數(shù)據(jù)訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)经宏,以不斷提高其對(duì)新數(shù)據(jù)處理判斷的準(zhǔn)確性楼咳。在開(kāi)源這三款圖像分割軟件工具之前,F(xiàn)acebook 還曾在 Torch 上開(kāi)源了一些功能強(qiáng)大的深度學(xué)習(xí)工具烛恤。
讓計(jì)算機(jī)能夠像人眼一樣識(shí)別圖中的多種物體
在過(guò)去幾年時(shí)間里,深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展余耽,以及強(qiáng)大的計(jì)算架構(gòu)缚柏,使得機(jī)器視覺(jué)系統(tǒng)的精度進(jìn)一步得到提升。
而圖像識(shí)別也經(jīng)歷了圖像分類(a)- 物體檢測(cè) (b)的過(guò)程碟贾,F(xiàn)acebook 所研究出的圖像分割技術(shù)可清楚的分割每一個(gè)物體币喧,如(c)圖所示
下面來(lái)講一下圖像分割技術(shù)實(shí)現(xiàn)的過(guò)程:
對(duì)于一張圖片而言轨域,人眼可以清楚的區(qū)分人、天空杀餐、草地干发、樹(shù)木等,但機(jī)器人不能史翘。為了讓機(jī)器能「看到」這些物體枉长,一張圖片會(huì)被編碼成數(shù)字組,每一個(gè)像素點(diǎn)都有一個(gè)值代表一個(gè)顏色(如下圖所示)琼讽。但是必峰,現(xiàn)實(shí)世界中的物體和場(chǎng)景也會(huì)隨時(shí)隨刻發(fā)生變化,這進(jìn)一步加大了機(jī)器識(shí)別的難度钻蹬。
深度網(wǎng)絡(luò)經(jīng)過(guò)了上百萬(wàn)個(gè)模板的學(xué)習(xí)吼蚁,能夠的圖像進(jìn)行分類,回答「是」與「否」的問(wèn)題问欠,如「圖片中是否有羊肝匆?」
物體分割
DeepMask 可把圖片分割當(dāng)做一個(gè)海量的二進(jìn)制分類問(wèn)題。對(duì)于圖像中重疊的片區(qū)顺献,則使用深度網(wǎng)絡(luò)來(lái)回答:「這一片是否含有物體」旗国,以及進(jìn)一步的問(wèn)題「該片中的某一像素點(diǎn),是否為該片中心物體的一部分滚澜?」粗仓。達(dá)到快速分割圖像中物體的目的。
現(xiàn)深度網(wǎng)絡(luò)中更上的層會(huì)捕捉到更多的語(yǔ)義概念设捐,如動(dòng)物的臉和四肢借浊。這些更上一些層的特征被設(shè)置在一個(gè)相對(duì)低的空間分辨率中計(jì)算。但這產(chǎn)生了一個(gè)掩碼預(yù)測(cè)(mask prediction)的問(wèn)題:更上的層雖然能捕捉物體大概的形狀掩碼萝招,但不能精準(zhǔn)的抓取物體的邊界蚂斤。
而 SharpMask 則可以對(duì) DeepMask 輸出的圖像進(jìn)行提煉,生成高保真槐沼、并能精準(zhǔn)的勾畫物體邊界的掩碼曙蒸。就如下圖所示的一些案例(其中紅色部分為圖片中與物體真實(shí)物體邊界能夠完全對(duì)齊的預(yù)測(cè)掩碼,也是 DeepMask 所捕捉不到的)岗钩。
物體分類
DeepMask 能夠區(qū)分物體纽窟,但不能分辨出它們具體是什么物品,另外兼吓,DeepMask 并不非常具有選擇性臂港,也可能會(huì)生成并不特別相關(guān)的圖像區(qū)域掩碼。所以,得進(jìn)一步縮小相關(guān)掩碼的選擇范圍审孽,從而識(shí)別出真正的物體县袱。
這還得讓深度網(wǎng)絡(luò)給定一個(gè) DeepMask 生成的掩碼,因此佑力,F(xiàn)AIR 專門訓(xùn)練了一個(gè)單獨(dú)的深度網(wǎng)絡(luò)式散,用于對(duì)掩碼的物體類型進(jìn)行分類。這其中遵循了一個(gè)名為 Region-CNN (RCNN)的基本范式打颤,該范式由 FAIR 的一名成員——Ross Girshick 創(chuàng)造暴拄。
RCNN 是一種兩階段的程序,在第一階段瘸洛,其將注意力集中到的特定的圖像區(qū)域揍移,在第二階段,深度網(wǎng)絡(luò)識(shí)別存在的物體反肋。其中那伐,在 RCNN 的第二階段,F(xiàn)AIR 使用了專用網(wǎng)絡(luò)架構(gòu)對(duì)掩碼進(jìn)行分類石蔗,以提升其性能罕邀。
最終,對(duì)于圖像中背景雜亂养距、物體尺寸等問(wèn)題诉探,利用可允許信息沿多條路徑穿過(guò)網(wǎng)絡(luò)的 MultiPathNet ,進(jìn)一步挖掘圖像背后的信息棍厌。
圖像分割技術(shù)還有更多的應(yīng)用
除了社交軟件(圖像肾胯、視頻等)外,圖像分割技術(shù)有著重要意義耘纱,例如讓計(jì)算機(jī)自動(dòng)識(shí)別圖片中的物體敬肚,以提高圖片搜索的效率和準(zhǔn)確率。失去視覺(jué)的人也能通過(guò)系統(tǒng)了解圖片內(nèi)容束析。
目前艳馒,F(xiàn)AIR 還在繼續(xù)改進(jìn)這項(xiàng)技術(shù)算法,在未來(lái)员寇,這套圖像檢測(cè)弄慰、分割、識(shí)別技術(shù)還將有可能應(yīng)用于商務(wù)蝶锋、健康等領(lǐng)域陆爽。