人類與機器都依賴于神經(jīng)網(wǎng)絡(luò)來進(jìn)行目標(biāo)與面部識別。最新的證據(jù)顯示,這兩類視覺系統(tǒng)也具有相同的缺陷。
深度卷積神經(jīng)網(wǎng)絡(luò)以排山倒海之勢席卷了人工智能領(lǐng)域。確實,現(xiàn)在這些機器視覺已經(jīng)在面部識別、物體識別甚至是下圍棋等眾多領(lǐng)域頻頻完勝人類對手。
當(dāng)然,頗為諷刺的一點是,神經(jīng)網(wǎng)絡(luò)的設(shè)計框架很大程度上模擬了人類的大腦結(jié)構(gòu)。因此,機器視覺的深度神經(jīng)網(wǎng)絡(luò)宏觀結(jié)構(gòu)與人類大腦負(fù)責(zé)視覺的部分十分類似。盡管人類大腦經(jīng)歷了數(shù)百萬年的進(jìn)化,而另一者才剛剛問世數(shù)十年,但是這兩者的內(nèi)在的機理卻十分相似。
這種高度相似性就引發(fā)了一個有趣的問題:如果機器視覺與人類視覺工作機理相似,那么它們是否也受到相似的制約?面對相似的視覺挑戰(zhàn)時,機器視覺與人類視覺的表現(xiàn)是否一致?
近日,伊朗德黑蘭大學(xué)的薩義德·克萊德皮舍(SaeedRezaKheradpisheh)和其合作者們?yōu)槲覀兘议_了這一問題的答案。他們使用了同樣的圖片,對于人類和機器分別進(jìn)行了測試。研究發(fā)現(xiàn),人類和機器確實會受到相同問題的困擾。
首先容小編介紹一點背景。在人類大腦中,負(fù)責(zé)視覺的通路包含了數(shù)層神經(jīng)元,每一層神經(jīng)元的作用,是逐步地從一張圖片中發(fā)掘出更多的信息,比如移動,形狀,顏色等等。這些神經(jīng)元之間相互聯(lián)接,形成了巨大的網(wǎng)絡(luò)。
深度卷積神經(jīng)網(wǎng)絡(luò)也擁有類似的結(jié)構(gòu)。它們也包含了許多層,每一層都包含了模擬神經(jīng)元的網(wǎng)絡(luò)回路,因此得名神經(jīng)網(wǎng)絡(luò)。
通過不斷的研究,計算機科學(xué)家們發(fā)現(xiàn),當(dāng)神經(jīng)網(wǎng)絡(luò)中每一個神經(jīng)元層都用來從圖片中逐步發(fā)掘新信息時,神經(jīng)網(wǎng)絡(luò)具有最好的計算性能??茖W(xué)家們研究單一神經(jīng)元層時發(fā)現(xiàn),這些神經(jīng)元層所具有的功能與大腦中某些特定的神經(jīng)元具有驚人的相似性。
但是,盡管人類大腦擅于進(jìn)行目標(biāo)識別,但它并不是完美的。比如說,將一張圖片進(jìn)行某種變形,人類可能并不能很輕易地識別圖像中的目標(biāo)。
舉個例子,想象一下一張從側(cè)面拍攝的汽車照片。人們已經(jīng)開發(fā)出了成千上萬種對于圖片進(jìn)行變形的方法。比如說對圖片中的對象進(jìn)行平移,分割,或者是將其放大或者縮小。
除此之外,還有兩種旋轉(zhuǎn)方式。其一是“平面旋轉(zhuǎn)”,比如說將照片中的汽車上下顛倒。
另一種是“深度旋轉(zhuǎn)”(或者說立體旋轉(zhuǎn))。在這種情形下,你需要將這個汽車想象成一個3D的物體。在深度上對汽車進(jìn)行旋轉(zhuǎn),你看見的可能是汽車的前部,后部或者是四分之三側(cè)視像,等等。
但是,就兩張擁有著相同汽車的圖片而言,改變不同的視角對于識別汽車會造成多大的影響?顯然,有一些變形比另一些更為困難,但是具體是哪些變形?機器視覺是否也會遇到相同的困難?
為了找出答案,克萊德皮舍和其合作者們制作了多張含有四類不同物體的圖片。隨后,這些圖片被用于測試人類與深度神經(jīng)網(wǎng)絡(luò)物體識別能力。
在人類受試環(huán)節(jié),電腦屏幕上會隨機出現(xiàn)一張照片,并顯示大約12.5毫秒。受試者們需要按下四個按鈕中的一個,來指出剛才看到的圖片中出現(xiàn)的是一輛車,一艘船,一輛摩托車或是一個小動物。
一共有89名受試者參加了實驗,每一名受試者都瀏覽了960張圖片。研究者們根據(jù)每位受試者的反應(yīng)速度與正確率來衡量他們辨別物體能力的高低。
與此同時,研究團(tuán)隊使用了兩個目前在目標(biāo)識別領(lǐng)域最為強大的深度卷積網(wǎng)絡(luò)模型進(jìn)行了相同的測試。這兩個神經(jīng)網(wǎng)絡(luò)模型分別來自加拿大的多倫多大學(xué)和英國的牛津大學(xué)。
研究團(tuán)隊最終得出的結(jié)論頗為有趣。克萊德皮舍說,“我們發(fā)現(xiàn),人類視覺與深度卷積神經(jīng)網(wǎng)絡(luò)識別不同變形的水平大致相當(dāng)。目前看來,對于兩者而言,深度旋轉(zhuǎn)是最具挑戰(zhàn)性的變形方式,之后是圖片的縮放,平面旋轉(zhuǎn)和平面移動(最簡單)。”
這一看似有趣的研究實際上有著極為重要的應(yīng)用。簡單來說,計算機科學(xué)家們在未來為測試機器視覺創(chuàng)建圖像數(shù)據(jù)庫時,需要更加謹(jǐn)慎。將來,他們需要對那些機器難以識別的因素加以控制。
同時,這項研究也展示了利用卷積神經(jīng)網(wǎng)絡(luò)來幫助研究者們研究人類認(rèn)知的巨大潛力。在許多應(yīng)用場合中,某些特殊圖像的設(shè)計是一項至關(guān)重要的任務(wù),比如航空管制識別,緊急出口標(biāo)志設(shè)計,救生設(shè)備說明書設(shè)計等。
使用人工對這些圖像進(jìn)行評估既耗時,又昂貴。但是,或許神經(jīng)網(wǎng)絡(luò)可以替代人類完成這些任務(wù),或者至少過濾掉那些最差勁的設(shè)計樣本,從而大大減輕人類的工作負(fù)擔(dān)。
除此之外,基于這項研究,研究人員們或許還得以開發(fā)出不會與人類犯同樣錯誤的機器視覺系統(tǒng)。這類系統(tǒng)可以用來輔助人類在某些重要場合下,比如駕駛時的決策。
當(dāng)然,這一切都只是一個開始。神經(jīng)網(wǎng)絡(luò)的到來,對于那些原來只能由人類負(fù)責(zé)的任務(wù)而言,不啻于一次變革,在將來,這一變革還將繼續(xù)加速。