每天我們都在報(bào)道人工智能又解決了哪些問(wèn)題,今天我們做一次逆向思考,人工智能尚未解決的問(wèn)題有哪些?
想要理解AI欠缺什么,最好的辦法是描述一個(gè)需要將各種人類(lèi)習(xí)以為常的認(rèn)知能力結(jié)合在一起的場(chǎng)景。當(dāng)代的人工智能和機(jī)器學(xué)習(xí)方法可以處理需要單一能力的問(wèn)題(當(dāng)然,處理效果各不相同),但整合這些能力卻仍然是一個(gè)遙不可及的目標(biāo)。
想象一下你和你的朋友剛買(mǎi)了一個(gè)復(fù)雜的新棋類(lèi)游戲,有一塊精致的板子和各種各樣的棋子、卡片以及復(fù)雜的規(guī)則。還沒(méi)有人知道怎么玩它,所以你們拿出說(shuō)明書(shū)。讀完之后你們開(kāi)始玩起來(lái)。有些人可能會(huì)犯一些錯(cuò)誤,但幾輪下來(lái),每個(gè)人都學(xué)會(huì)了游戲規(guī)則,至少可以嘗試贏得比賽。
在學(xué)習(xí)這個(gè)游戲的過(guò)程中發(fā)生了什么?
1.語(yǔ)言解析:讀游戲規(guī)則的玩家必須將符號(hào)轉(zhuǎn)換成口語(yǔ)。聽(tīng)游戲規(guī)則的玩家必須分析口語(yǔ)。
2.模式識(shí)別:玩家必須把所朗讀的單詞和游戲中的物體連接起來(lái)?!甘骥蛔印购汀讣t方士兵」必須基于語(yǔ)言線索被識(shí)別出來(lái)。如果該說(shuō)明書(shū)有插圖,那么它們必須與現(xiàn)實(shí)中的物體相匹配。在游戲中,玩家必須識(shí)別出旗子和卡片的錯(cuò)綜組合,以及事件發(fā)生的關(guān)鍵序列。優(yōu)秀的玩家還會(huì)學(xué)習(xí)去識(shí)別其他玩家的游戲模式,從而有效建立起有關(guān)他人心理狀態(tài)的模型。
3.運(yùn)動(dòng)控制:玩家必須能夠?qū)⑵遄雍涂ㄆ苿?dòng)到棋盤(pán)上的正確位置。
4.規(guī)則遵守與規(guī)則推斷:玩家必須理解規(guī)則并檢查規(guī)則是否得到了正確的應(yīng)用。在掌握了基本的規(guī)則之后,優(yōu)秀的玩家還應(yīng)該能夠發(fā)現(xiàn)更高級(jí)別的規(guī)則或有助于他們?nèi)〉脛倮膬A向。這種推論能力與塑造他人思維模型的能力密切相關(guān)。(這在心理學(xué)中被稱(chēng)為心智理論,theoryofmind)。
5.社交禮儀:玩家之間是朋友伙伴的關(guān)系,即使有些玩家犯了錯(cuò)誤或擾亂了游戲進(jìn)程,也應(yīng)當(dāng)友好相處。(當(dāng)然,我們知道這并不總會(huì)發(fā)生。)
6.處理干擾:如果門(mén)鈴響了,外賣(mài)到了,玩家們必須能夠從比賽中抽身,與送貨人打交道,然后再投入到比賽中,回憶起游戲的進(jìn)展,譬如輪到誰(shuí)了。
在所有這些子問(wèn)題中,AI至少取得了一些進(jìn)展。但目前這一輪人工智能/機(jī)器學(xué)習(xí)領(lǐng)域的爆發(fā)主要還是模式識(shí)別技術(shù)進(jìn)步的成果。
在當(dāng)前的某些特定領(lǐng)域,人工智能的模式識(shí)別水平已經(jīng)優(yōu)于人類(lèi)。但也有各種各樣識(shí)別失敗的情況發(fā)生。人工智能方法識(shí)別物體和序列的能力還不如人類(lèi)模式識(shí)別那樣魯棒。
人類(lèi)有能力創(chuàng)造出各類(lèi)不變性表示。例如,即使視角不同、存在遮擋物、光照條件變幻莫測(cè),人類(lèi)仍然能夠識(shí)別出特定的視覺(jué)模式(譯者注:比如可以在黑暗里憑借眼睛認(rèn)出一只貓,看到被建筑物遮擋到只剩一個(gè)尾燈的車(chē),仍然能自動(dòng)識(shí)別出車(chē)在建筑物后的位置)。我們的聽(tīng)覺(jué)模式識(shí)別技能或許更加出彩,能夠在噪音干擾以及速度、音高、音色和節(jié)奏的起伏中識(shí)別出樂(lè)句。
毫無(wú)疑問(wèn),人工智能將在這一領(lǐng)域取得穩(wěn)步進(jìn)展,但我們不知道隨著單個(gè)領(lǐng)域識(shí)別能力的不斷進(jìn)步,將已習(xí)得的表示在新環(huán)境中泛化(generalize)的能力是否也會(huì)隨之提高。
現(xiàn)有的人工智能游戲玩家都無(wú)法解析這樣一句話:「這個(gè)游戲就像太空版的《卡坦島》(ThisgameislikeSettlersofCatan,butinSpace)」。語(yǔ)言解析可能是人工智能最為棘手的部分。人類(lèi)可以使用語(yǔ)言獲取新信息和新技能,部分原因是我們擁有關(guān)于世界的豐富的背景知識(shí)。此外,我們可以利用上下文來(lái)十分靈活地運(yùn)用這些背景知識(shí),因此我們可以辨別出內(nèi)容之間相關(guān)與否。
對(duì)舊知識(shí)的泛化和重用隸屬于一個(gè)更為廣泛的能力:多技能整合??赡芪覀兡壳暗姆椒ㄟ€達(dá)不到生物智能那樣輕易實(shí)現(xiàn)大規(guī)模能力集成。
一個(gè)常見(jiàn)的能力集成方面的挑戰(zhàn)是符號(hào)接地問(wèn)題(symbolgroundingproblem)。即符號(hào)系統(tǒng)(例如數(shù)學(xué)符號(hào)或語(yǔ)言中的詞)如何與感知現(xiàn)象——視覺(jué)、聲音、紋理等相連接。
粗略地說(shuō),人工智能方法分為兩類(lèi):符號(hào)化(symbolic)和亞符號(hào)化(sub-symbolic)。符號(hào)化方法被用于「經(jīng)典的」或「?jìng)鹘y(tǒng)的」人工智能。它們非常適用于基于規(guī)則的確定性場(chǎng)景,比如下棋(但通常我們必須預(yù)先編碼好規(guī)則)。如果人類(lèi)提前做了符號(hào)接地(symbol-grounding),符號(hào)處理過(guò)程就會(huì)很輕松。如果讓人工智能直接處理「原始」輸入信息,比如光、聲音、紋理和壓力這些數(shù)據(jù),效果就沒(méi)那么好了。
在另一個(gè)極端,我們有亞符號(hào)方法,如神經(jīng)網(wǎng)絡(luò)(深度學(xué)習(xí)網(wǎng)絡(luò)是其中的一種)。這些方法接收原始輸入信息的數(shù)字化版本——像素、聲音文件等作為輸入。亞符號(hào)方法適用于許多形式的模式識(shí)別和分類(lèi)問(wèn)題,但是我們?nèi)匀粵](méi)有可以從類(lèi)別標(biāo)簽轉(zhuǎn)換到基于規(guī)則進(jìn)行操縱的符號(hào)系統(tǒng)的可靠方法。
所以綜上所述,想要了解人工智能問(wèn)題的范疇,首先要了解智力本身——它遠(yuǎn)比模式識(shí)別復(fù)雜得多。我們需要能夠建立起模式與符號(hào)表示系統(tǒng)之間的雙向連接,使語(yǔ)言的和基于規(guī)則的思維能夠整合在一個(gè)具身代理中,與現(xiàn)實(shí)世界進(jìn)行實(shí)時(shí)的交互。