【中國傳動網(wǎng) 人物專訪】 作為人工智能的一個分支,計算機視覺(機器視覺)是一門研究教機器學(xué)會“看”的學(xué)科,其目的在于使計算機具備和人類匹配的視覺感知和理解能力。近年來伴隨著電子信息技術(shù)的高速發(fā)展,互聯(lián)網(wǎng)特別移動互聯(lián)網(wǎng)的普及,以及各類攝像頭的廣泛應(yīng)用,全球圖像視頻數(shù)據(jù)爆炸式增長,人類社會正在進(jìn)入視覺信息的大數(shù)據(jù)時代。海量的圖像和視頻在方便人們生產(chǎn)與生活的同時,也對智能視覺技術(shù)提出了新的挑戰(zhàn),對視覺技術(shù)的適用范圍、魯棒性和效率等提出了更高的要求。目前大多數(shù)視覺處理系統(tǒng)可以較好地采集、傳輸和存儲圖像視頻,但是對視覺內(nèi)容高效的分析和準(zhǔn)確識別理解能力往往還有待提升。計算機視覺的應(yīng)用正在從傳統(tǒng)的受控條件下工業(yè)視覺、OCR等拓寬到無人駕駛、動態(tài)人像識別、視頻監(jiān)控等更為復(fù)雜的場景。近年來深度學(xué)習(xí)方法的快速發(fā)展,為解決上述問題提供了有效的途徑。深度學(xué)習(xí)方法(Deeplearning)作為傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的拓展,利用包含多個隱層的深層神經(jīng)網(wǎng)絡(luò),解決需要高度抽象特征的人工智能任務(wù)。深度學(xué)習(xí)借鑒了人腦的多層神經(jīng)細(xì)胞處理結(jié)構(gòu),多層非線性結(jié)構(gòu)使得深度神經(jīng)網(wǎng)絡(luò)具備從視覺大數(shù)據(jù)中學(xué)習(xí)抽象語義特征的抽取能力和對復(fù)雜任務(wù)的建模能力。深度神經(jīng)網(wǎng)絡(luò)在LFW人臉識別、ImageNet物體分類等任務(wù)甚至超過了人的表現(xiàn)。
2017年國務(wù)院關(guān)于印發(fā)《新一代人工智能發(fā)展規(guī)劃》也把視覺技術(shù)作為重點發(fā)展的基礎(chǔ)理論和關(guān)鍵技術(shù)領(lǐng)域進(jìn)行布局。中國人工智能學(xué)會副理事長譚鐵牛院士提出:”圖像視頻大數(shù)據(jù)是人工智能的突破口,是信息產(chǎn)業(yè)新的增長點”。智能視覺技術(shù)已經(jīng)成當(dāng)前學(xué)術(shù)研究和創(chuàng)新創(chuàng)業(yè)的熱點領(lǐng)域。谷歌、微軟、百度、騰訊、阿里等互聯(lián)網(wǎng)巨頭密集布局視覺領(lǐng)域的研發(fā),商湯、依圖、曠視等視覺初創(chuàng)企業(yè)完成高額融資快速成長。毋庸置疑,智能視覺技術(shù)將賦能產(chǎn)業(yè)的方方面面,給未來的生產(chǎn)生活帶來深刻變革。
中國科學(xué)院深圳先進(jìn)技術(shù)研究院集成所多媒體集成技術(shù)研究中心主任喬宇