打開谷歌(微博)翻譯APP,將手機鏡頭對準你看不懂的外語,然后屏幕上便自動顯示翻譯結(jié)果。
谷歌翻譯實時顯示
收到朋友發(fā)來的email,在查看郵件的時候,Gmail已經(jīng)為你準備好了可能需要回復的內(nèi)容。
無論是谷歌翻譯還是Gmail,它們已被推出多時,均非新鮮產(chǎn)品,但在用戶看不見的地方,谷歌已經(jīng)并正在繼續(xù)對它們進行“升級”。上述翻譯及Gmail提供的改進,便得益于此。
“升級”源于谷歌AIfirst戰(zhàn)略的執(zhí)行和落地,2016年,谷歌CEOSundarPichai宣布谷歌戰(zhàn)略從MobileFirst(移動先行)轉(zhuǎn)向AIFirst(人工智能先行),在對人工智能技術進行多年投入后,現(xiàn)在,谷歌正在通過深度學習、機器學習等技術,讓旗下的產(chǎn)品變得更加智能。
升級旗下產(chǎn)品只是谷歌期望通過AI實現(xiàn)的目標之一。11月28日,在日本東京舉行的Google亞太地區(qū)媒體開放日上,Google資深研究員、GoogleBrain負責人JeffDean表示,谷歌在人工智能領域的愿景,是通過三種途徑讓每個人都從中受益:使得Google產(chǎn)品更加實用、幫助企業(yè)和開發(fā)者創(chuàng)新,以及為研究人員提供工具,從而解決人類面對的各項重大挑戰(zhàn)。
從谷歌展示的一系列產(chǎn)品及案例可以看出,谷歌正在為了實現(xiàn)上述目標而努力。
谷歌的新魔法
AI究竟讓產(chǎn)品變得怎樣實用?實際體驗是回答這個問題的最好方式。
在今年Google亞太地區(qū)媒體開放日現(xiàn)場,谷歌準備了不同產(chǎn)品的展示,包括各類圖像產(chǎn)品、Googleassistant、Googletranslate以及一系列運用了機器學習等AI技術的小應用。
以圖像應用為例,現(xiàn)實生活中,人們經(jīng)常會遇到需要將紙質(zhì)版圖片或文件轉(zhuǎn)為電子版的場景,通常情況下用戶需要借助專業(yè)掃描設備才能得到理想的電子版,因為如果使用手機拍照,會出現(xiàn)反光、畸變等問題。
針對這一需求,谷歌推出一個名為“照片掃描儀”的APP,用戶按照指引對紙質(zhì)版物品拍攝五張不同角度的照片,該APP會對拍攝的圖片進行計算和合成,最終輸出一個與用專業(yè)設備掃描效果類同的電子版。
照片掃描儀只是谷歌在借助AI技術改進應用體驗方面的一個案例,除了圖像應用外,語音、文字等相關產(chǎn)品也有不同程度的體驗改進。
不止是軟件方面,在讓AI技術落地上,谷歌還在嘗試將AI、軟件、硬件結(jié)合起來。
作為谷歌落地語音交互產(chǎn)品的重要硬件,GoogleHome如今可以提供非常多樣的服務,比如它能夠識別不同用戶的聲音,并給予不同的反饋。例如,A與B都養(yǎng)了寵物狗,當A對GoogleHome說想看寵物照片的時候,GoogleHome可以識別出A的聲音,并將A的寵物照片調(diào)出;而當B提出同樣要求的時候,GoogleHome調(diào)出的是B的寵物照片。
這一功能為GoogleHome的語音配對功能(VoiceMatch),它之所以能夠?qū)崿F(xiàn),源于在機器學習的幫助下,語音助手能夠識別不同的語音。據(jù)介紹,語音配對目前支持最多六個用戶連接到同一臺GoogleHome,GoogleHome是目前市場上首個具備此功能的智能音箱。
機器學習還被運用到醫(yī)療領域,通過與印度和美國的醫(yī)生合作,谷歌創(chuàng)建了一個包含12.8萬張眼底掃描圖片的數(shù)據(jù)集,來用于訓練一個檢測糖尿病性視網(wǎng)膜病變的深度神經(jīng)網(wǎng)絡。
經(jīng)過訓練,模型識別眼底掃描圖的專業(yè)準確度甚至超過了專業(yè)醫(yī)生的平均水平,而這可以幫助醫(yī)生提高診斷效率,使患者盡早得到治療。
同時,通過TensorFlow、云機器學習API(CloudMachineLearningAPIs)以及張量處理器(TensorProcessingUnit,TPU)電腦芯片,谷歌將AI能力向更多開發(fā)者開放出來。食品企業(yè)得以借此提高食物檢查效率,生物學家得以更加高效的了解鳥類的習性并提升保護的效果。
而無論是優(yōu)化現(xiàn)有產(chǎn)品、開放AI能力以及解決人類的共同問題,實現(xiàn)上述目標的基本前提是持之以恒的投入AI方面的研究,并取得進展。在谷歌的AI戰(zhàn)略中,機器學習是重中之重。
改變這樣發(fā)生
機器學習是計算機科學的一種形式,認為編寫能使計算機自主學習如何變得智能的程序,要比直接編寫智能程序要更為簡單。通俗的來講,機器學習的目的是讓機器自身變得智能。
JeffDean介紹,機器學習是谷歌在人工智能領域的工作重心,谷歌開展機器學習的研究已經(jīng)很長時間,但目前機器學習仍處于發(fā)展初期。如今,機器學習對分類、預測、理解和生成這四個關鍵方面很有幫助。而這些功能幾乎已經(jīng)被應用于谷歌所有的產(chǎn)品中。
無論是GoolgePhotos、GoogleTranslate、GoogleLens,還是Gmail、Inbox、GoogleMaps,亦或者GoogleAssistant、YouTube,機器學習技術的加入,讓它們可以提供更好的體驗。
新款Pixel手機具備了人像模式,這一模式拍攝人像時可以柔和虛化背景,傳統(tǒng)技術條件下,這需要一個多鏡頭的專業(yè)相機才能實現(xiàn),但機器學習和計算攝影技術的結(jié)合,使得Pixel手機依靠每側(cè)各有一個鏡頭便實現(xiàn)了同樣的效果。
未使用人像模式(Portraitmode)的照片(左)和使用人像模式(Portraitmode)的照片(右)
根據(jù)谷歌搜索項目總監(jiān)LinneHa的介紹,深度神經(jīng)網(wǎng)絡技術大大提高了語音搜索中語音識別的準確性,這使得用戶在嘈雜的環(huán)境中也可以與手機自由對話。在機器學習的幫助下,自然語言處理系統(tǒng)能夠更好地理解你想說的話。在利用機器學習實現(xiàn)文本向語音轉(zhuǎn)換的實驗項目ProjectUnison的幫助下,通過轉(zhuǎn)換引擎,手機可以用語料并不豐富的語種,如孟加拉語,高棉語和爪哇語。
實際成果已經(jīng)證明,機器學習與具體應用結(jié)合可以取得非常好的效果,但JeffDean仍舊提示目前機器學習存在的兩大挑戰(zhàn),首先是機器學習模型的觸達性;二是機器學習模型的包容性。
為了解決第一個問題,谷歌將在明年在互聯(lián)網(wǎng)上提供免費的機器學習課程,為了解決第二個問題,谷歌啟動了People+AIResearch(PAIR)計劃,并與與GeenaDavis研究所合作建立了GD-IQ(一種利用機器學習檢測電影中性別偏見的工具)。
上述措施對解決機器學習面臨的挑戰(zhàn)提供了幫助,但于谷歌而言,在AIfrist的戰(zhàn)略指引下,其面臨的挑戰(zhàn)不止于此。
從行業(yè)競爭的角度而言,越來越多公司推出了機器學習開源平臺,谷歌要如何應對競爭,保持對開發(fā)者的吸引力?而從國家間的競爭來看,谷歌還面臨著美國政府是否愿意投入和支持AI產(chǎn)業(yè)發(fā)展的影響。
面對行業(yè)競爭,JeffDean表示,“TensorFlow在不斷的發(fā)展,不斷地增加新的功能。它們可能針對不同的人群,有的針對研究者,有的更多傾向于移動平臺。所以這樣的競爭是好的。TensorFLOW的開源軟件是有很靈活的Apache2.0許可機制?!?/p>
而面對國家間的競爭,谷歌選擇了建立本土團隊提升AI發(fā)展速度的做法。JeffDean表示,谷歌正在中國組建AI團隊,團隊主要分布于北京和上海兩個城市。
這一做法顯然是從新人才的角度出發(fā)——“我們想關注下一代有更好計算能力的人,解決實際的問題,有意思的問題。我們并不擔心競爭對手,我們關心的是我們自己的研究。”
從研究到應用,再到開放,Google在AIfirst戰(zhàn)略的指引下,已經(jīng)形成了比較完成的拼圖,盡管人工智能的發(fā)展讓部分公眾對其安全性產(chǎn)生擔憂,但在一直投身于這個行業(yè)的JeffDean看來,機器學習可以幫助人類解決更復雜的問題,“我們現(xiàn)在應該著眼于解決眼前的問題”,而這也將影響著谷歌未來發(fā)展AI的路。