機遇與挑戰(zhàn)并存,計算機視覺的黃金時代來臨

時間:2016-10-27

來源:網(wǎng)絡(luò)轉(zhuǎn)載

導語:10月22日,來自國內(nèi)外人工智能專家及行業(yè)領(lǐng)袖齊聚世界機器人大會,在其專題論壇2016中國智能機器人產(chǎn)業(yè)高峰論壇上展開一場別開生面的機器人和人工智能主題演講,并帶來精彩互動交流。

10月22日,來自國內(nèi)外人工智能專家及行業(yè)領(lǐng)袖齊聚世界機器人大會,在其專題論壇2016中國智能機器人產(chǎn)業(yè)高峰論壇上展開一場別開生面的機器人和人工智能主題演講,并帶來精彩互動交流。

了解到還有很多粉絲不能到場參會,小編特地整理了參會嘉賓微軟亞洲研究院視覺計算組組長、資深計算機視覺專家華剛的報告速記,讓大家一睹為快。

華剛:大家下午好!今天報告題目是計算視覺的黃金時代,機遇與挑戰(zhàn)。如果我們看到這個題目,關(guān)鍵字有幾個,第一個是計算機視覺,第二個黃金時代,第三個第四個機遇挑戰(zhàn)。

基于這四個關(guān)鍵字給大家講講我的理解和看法。什么是計算機視覺?學術(shù)的觀點定義領(lǐng)域的話,計算機視覺我們從圖象和視頻中間提取數(shù)值和符號計算機系統(tǒng)。我們說一個愿景能讓計算機像人類一樣看到并理解圖象,我們認為是一個黃金時代回顧一下計算機視覺真正發(fā)展的歷史?;旧蟻碇v計算機視覺歷史第一個萌芽階段,1955年到1979年的時間,這個領(lǐng)域還是相對比較新的領(lǐng)域。在55年我們對于計算機視覺提出一個展望,在MIT一個暑期人工智能會議上。我們在三四個月內(nèi)能不能把計算機視覺工作解決了,直到今天還沒有完全解決。中間經(jīng)歷了很多發(fā)展,在70年代麻省理工真正成立研究小組,開設(shè)第一門計算機視覺課程。

從今天來講,我們看到會是非常簡單一個圖片,是一些像塊狀的物體,這是MIT第一篇博士論文。稱之為萌芽階段,大家處于一種探索狀態(tài),這個領(lǐng)域怎么走?早期期望說三個月把這個問題解決,甚至40年之后我們?nèi)匀粵]有把這個問題解決。計算機視覺真正發(fā)展一個非常堅持的基礎(chǔ),應(yīng)該是從21世紀到80年代的時間,這中間發(fā)生很多時間,在80年代初光學支付(音譯)識別系統(tǒng),應(yīng)用于商業(yè)應(yīng)用郵局。美國郵局大家利用信件交流方式很多,包括公司各種商業(yè)應(yīng)用,涉及到郵件分檢的問題。

這中間發(fā)生了幾個里程碑事件,包括三維視覺的理論體系基本完備了。到90年代初人臉和語音識別,統(tǒng)計學識別方法已經(jīng)引入到計算機視覺上了。計算機視覺真正爆發(fā)時間,我認為從21世紀10年代中,涉及到幾個方面的因素。第一個我們進入互聯(lián)網(wǎng)時代,對于圖象數(shù)據(jù)積累,以及我們對硬件技術(shù)的發(fā)展,我們對攝像機前端這種硬件設(shè)備技術(shù)也是在日益增進,包括微軟代表3D設(shè)想傳感器帶來的新的實際應(yīng)用。

如果要從這三個階段中找一個比較代表性的節(jié)點,我認為在爆發(fā)階段是深度學習模型,它為什么會對計算機視覺帶來本質(zhì)上的影響和變化。我們更廣泛看計算機視覺應(yīng)用的話,在這些年產(chǎn)生非常廣泛的應(yīng)用,包括三維圖象的建模,包括監(jiān)控,以及人機交互產(chǎn)生非常大的影響。為什么處在計算機視覺黃金時代?我認為是一個更多的工作,CVPR是我們計算機視覺的聯(lián)會。當我自己還是一個博士生的時候,去參加CVPR,只有兩家公司招聘,一家公司(桑娜福音譯),一個是西門子。到2016年的時候,有一個網(wǎng)站上千條的工作信息,我們真正這個技術(shù)開始進入產(chǎn)業(yè)界。

這個CVPR有更多人參與到這個年會,CVPR今年年會已經(jīng)到3500人參加這個會議,5年前就是1000人左右。最重要我們有更多資金注入進來,現(xiàn)在博士畢業(yè)生很輕易拿到一個100萬的年薪工作,今年CVPR將近100家公司占駐這個CVPR,我們看到越來越多的資金流向這個領(lǐng)域。我自己作為CVPR主辦成員之一,我們在會場設(shè)計上我們希望會達到5000人的規(guī)模。

這里一個朋友,講的一句話,在他36年的從事計算機視覺研究一個經(jīng)歷中間,從來沒有看到我們這個領(lǐng)域像現(xiàn)在這么好過,他說我們在計算機視覺第一個黃金時代,以前沒有過。他自己現(xiàn)在也在亞馬遜作為一個保密狀態(tài)工作,在幫亞馬遜做一些事情。黃金時代我們實際上有一些什么樣的機遇?為什么這個階段產(chǎn)生爆發(fā)性的狀態(tài)。

前面兩位老師提到一些,我們擁有了更多數(shù)據(jù)從各個方面來的。第二個方面,剛才山老師提到我們計算機視覺很多方法,可能在2、30年前被學習過,當時計算能力還不夠。第三個就是深度學習模型,在微軟研究院同事做的傳感網(wǎng)絡(luò),已經(jīng)做到1001層,在7、8年前不可想象。下面我就展示一下微軟研究院在這個階段我們一些小小的成果。

我們微軟認知服務(wù),我們已經(jīng)在上面發(fā)布了非常多的算法API,包括計算機視覺方面、語音方面、自然語言處理方面包括知識庫方面,還有搜索庫方面。人臉識別方面API,我們在兩年以前人臉識別API已經(jīng)有非常有成功的。Windowshello。我們最近另外一個工作,怎么在圖象和風格之間做轉(zhuǎn)換,左邊這個是所謂風格的圖,右邊是所謂內(nèi)容圖,我們這個應(yīng)用算法一個目的,我怎么能夠把右邊這張圖渲染成左邊圖的風格,實際上我們有一些最新基于深度學習一個方法,我們真正試圖去理解怎么描述這種圖象的風格。

這里給看到更多的結(jié)果,當固定內(nèi)容圖的時候,我們可以把它渲染成不同的風格,用同一個網(wǎng)絡(luò)。我們說計算機視覺黃金時代機遇在什么地方?我參加他80歲生日一個論壇,非常好的朋友也算他的學生,馬里蘭一個大學教授,他就講一個觀點,因為我們講計算機視覺帶來的影響?第一個觀點,深度學習模型就像一個和面機一樣,你把很多東西放進去它出來非常好吃的東西。它是一個非常好的東西,我們要利用好它。它是一個讓眾生變的平等的東西。我雇了兩個高中生,編程能力很強,在計算機視覺方面很低,不管你有一年的經(jīng)驗,還是多年經(jīng)驗,讓它飛固然是好的模型。因為涉及到很多觀點,媒體朋友不要隨便轉(zhuǎn)載這些觀點,讓大家有一個體會。

涉及到黃金時代機遇什么?實際上把這個技術(shù)門檻降低不少,現(xiàn)在很多人不需要經(jīng)過10年的訓練能去做一些計算機視覺應(yīng)用,或者是技術(shù)。所以我認為這實際上是產(chǎn)業(yè)界一個機遇。產(chǎn)業(yè)界很少有人去愿意走40步的。實際上從產(chǎn)學研角度來講,這個學界應(yīng)該還是更多去開創(chuàng)一些新的研究領(lǐng)域,能夠做一些更好的事情。

黃金時代另外一個機遇就是創(chuàng)業(yè)、創(chuàng)業(yè),我們很多老師已經(jīng)創(chuàng)業(yè)了,像山老師,像朱瓏一直學術(shù)方面走的比較多的意圖,當我看到山老師公司的時候,是一個中英文混合體,山老師到底是看他還是看他,我不太明白。一個是人臉識別,一個是自動駕駛,人臉識別目前離實際應(yīng)用最近一個,而且各個方面產(chǎn)生實際應(yīng)用也是非常好的過程。我們遇到挑戰(zhàn)什么?其實這么多年計算機視覺一直試圖大家問自己一個問題,什么是計算機視覺殺手級應(yīng)用?它是人臉識別嗎?還是安防監(jiān)控,還是輔助醫(yī)療圖象診斷,我想大家沒有回答,更多是摸索和探索。至于自動駕駛,我們還是保守推動這個行業(yè),不要寒冬。我們還要小心謹慎一樣,不要讓殺手級應(yīng)用真正變成殺手應(yīng)用。

另一方面,這個問題不僅在中國存在,其實在美國很多大學里面教授,做計算機視覺方面很多進了公司,或者自己出來創(chuàng)業(yè)。大家問一個問題,這些教授創(chuàng)業(yè)和進了產(chǎn)業(yè)界,誰來培養(yǎng)下一代的學生,這個問題值得思考。

最后自己關(guān)于計算機視覺思考,這三個方面。第一個方面,為什么深度學習對計算機視覺好用?實際上大家如果在計算機視覺領(lǐng)域,計算機視覺本質(zhì)是解不適定的問題。第二個深度學習本質(zhì)上提供了用前饋的模型解反問題的框架。這是一個非常在高層面上一個理解的解釋,本質(zhì)上解這種不好的反問題的時候,我們有了反問題的框架。我自己對整體上的方法非常欣賞,但是自己還有一些領(lǐng)域的知識放在里面。

第二個,計算機視覺發(fā)展到今天,40年前從人工智能科學研究共同體分離出來有一個原因,40年前人工智能,包括語音識別,包括計算機視覺技術(shù)沒有成熟。2010年計算機視覺、自然語言處理,語音識別這些技術(shù)發(fā)展到一定程度,天下大勢,分久必合,合久必分,大家思考一個問題,最終人工智能方面技術(shù)我們怎么能夠集合到一起,為綜合人工智能系統(tǒng)服務(wù)。

最后講,計算機視覺產(chǎn)學研一個互動。這個問題很簡單,本質(zhì)上認為所謂互動三個要素一個流通,研究人員、資金和技術(shù),這個方面做的比較好,大家可以關(guān)注一下微軟亞洲研究院博士生和學生培養(yǎng)的工作,我們計算科學的研究十幾年歷史,跟各個高校聯(lián)合博士培養(yǎng)一個項目,這個學校的學生可以在我們研究院做五年的學習,拿到博士學位。包括給學校提供資金上的支持,在座有很多出來創(chuàng)業(yè)或者是產(chǎn)業(yè)界,還是想我們在人工智能產(chǎn)業(yè)上我們從中得到一些東西,還想到回饋給這個領(lǐng)域。謝謝大家!

更多資訊請關(guān)注機器視覺頻道

中傳動網(wǎng)版權(quán)與免責聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.connectcrack.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負版權(quán)法律責任。

如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運動控制公眾號獲取更多資訊

關(guān)注直驅(qū)與傳動公眾號獲取更多資訊

關(guān)注中國傳動網(wǎng)公眾號獲取更多資訊

最新新聞
查看更多資訊

熱搜詞
  • 運動控制
  • 伺服系統(tǒng)
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0