技術(shù)頻道

娓娓工業(yè)
您現(xiàn)在的位置: 中國(guó)傳動(dòng)網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 首個(gè)基于森林的自編碼器,性能優(yōu)于DNN

首個(gè)基于森林的自編碼器,性能優(yōu)于DNN

時(shí)間:2018-07-11 16:33:18來(lái)源:網(wǎng)絡(luò)轉(zhuǎn)載

導(dǎo)語(yǔ):?現(xiàn)在,在深度森林的基礎(chǔ)上,他們又提出了基于決策樹(shù)集成方法的自編碼器(auto-encoder)eForest。實(shí)驗(yàn)結(jié)果表明,eForest在速度和精度等方面均優(yōu)于基于DNN的自編碼器。

或許你還記得南大LAMDA教授周志華和學(xué)生馮霽在今年早些時(shí)候發(fā)表的“深度森林”論文,他們認(rèn)為基于決策樹(shù)集成的方法同樣可以構(gòu)建深度學(xué)習(xí)模型,并提出深度森林gcForst,對(duì)神經(jīng)網(wǎng)絡(luò)以外的深度模型進(jìn)行了探索。現(xiàn)在,在深度森林的基礎(chǔ)上,他們又提出了基于決策樹(shù)集成方法的自編碼器(auto-encoder)eForest。實(shí)驗(yàn)結(jié)果表明,eForest在速度和精度等方面均優(yōu)于基于DNN的自編碼器。

自編碼是一項(xiàng)重要的任務(wù),通常由卷積神經(jīng)網(wǎng)絡(luò)(CNN)等深度神經(jīng)網(wǎng)絡(luò)(DNN)實(shí)現(xiàn)。本文中,我們提出了EncoderForest(簡(jiǎn)寫為eForest),這是第一個(gè)基于樹(shù)集成的自編碼器。我們提出了一種方法,讓森林能夠利用樹(shù)的決策路徑所定義的等效類來(lái)進(jìn)行后向重建,并在監(jiān)督和無(wú)監(jiān)督環(huán)境中展示了其使用情況。實(shí)驗(yàn)結(jié)果表明,與DNN自編碼器相比,eForest能夠以較快的訓(xùn)練速度獲得更低的重建誤差,同時(shí)模型本身具有可重用性和容損性。

如果上面這段話看上去似曾相識(shí),比如關(guān)鍵詞“基于樹(shù)的”、“eForest”,還有“相比DNN,基于樹(shù)的方法更加……”的表述,你沒(méi)有弄錯(cuò),南大LAMDA教授周志華和他的學(xué)生馮霽又出手了。

今年早些時(shí)候,他們兩人的論文《深度森林:探索深度神經(jīng)網(wǎng)絡(luò)以外的方法》,在業(yè)界引發(fā)了不小的反響。在那篇論文中,周志華和馮霽提出了一種基于樹(shù)的方法gcForest——“multi-GrainedCascadeforest”,多粒度級(jí)聯(lián)森林——通過(guò)一種全新的決策樹(shù)集成方法,使用級(jí)聯(lián)結(jié)構(gòu),讓gcForest做表征學(xué)習(xí)。實(shí)驗(yàn)中,gcForest使用相同的參數(shù)設(shè)置,在不同的域中都獲得了優(yōu)異的性能,在大型和小型數(shù)據(jù)集上表現(xiàn)都很好。此外,由于是基于樹(shù)的結(jié)構(gòu),gcForest相比神經(jīng)網(wǎng)絡(luò)也更容易分析。

在gcForest論文中,作者寫道:“我們認(rèn)為,要解決復(fù)雜的問(wèn)題,學(xué)習(xí)模型也需要往深了去。然而,當(dāng)前的深度模型全部都是神經(jīng)網(wǎng)絡(luò)。這篇論文展示了如何構(gòu)建深度森林(deepforest),為在許多任務(wù)中使用深度神經(jīng)網(wǎng)絡(luò)以外的方法打開(kāi)了一扇門?!?/p>

現(xiàn)在,他們?cè)趃cForest的基礎(chǔ)上,繼續(xù)探索DNN以外的方法,這次瞄準(zhǔn)的是自編碼器

繼續(xù)探索神經(jīng)網(wǎng)絡(luò)以外的方法,這次瞄準(zhǔn)自編碼器

在最新論文《用決策樹(shù)做自編碼器》(AutoEncoderbyForest)中,周志華和馮霽提出了EncoderForest,也即“eForest”,讓一個(gè)決策樹(shù)集成在監(jiān)督和無(wú)監(jiān)督的環(huán)境中執(zhí)行前向和后向編碼運(yùn)算,實(shí)驗(yàn)結(jié)果表明,eForest方法具有以下優(yōu)點(diǎn):

準(zhǔn)確:實(shí)驗(yàn)重建誤差低于基于MLP或CNN的自編碼器

高效:在單個(gè)KNL(多核CPU)上的訓(xùn)練eForest的速度,比在Titan-XGPU上訓(xùn)練CNN自編碼器速度更快

容損:訓(xùn)練好的模型在部分受損的情況下仍然運(yùn)行良好

可復(fù)用:在一個(gè)數(shù)據(jù)集上訓(xùn)練好的模型能夠直接應(yīng)用于同領(lǐng)域另外一個(gè)數(shù)據(jù)集

下面是小編對(duì)最新論文的編譯介紹,要查看完整的論文,請(qǐng)參見(jiàn)文末地址。

首個(gè)基于樹(shù)集成的自編碼器模型eForest

這一次,我們先從結(jié)論看起,再回過(guò)頭看eForest模型的提出和實(shí)驗(yàn)結(jié)果。在結(jié)論部分,作者寫道,

在本文中,我們提出了首個(gè)基于樹(shù)集成的自編碼器模型EncoderForest(縮寫eForest),我們?cè)O(shè)計(jì)了一種有效的方法,使森林能夠利用由樹(shù)的決策路徑所定義的最大相容規(guī)則(MCR)來(lái)重構(gòu)原始模式。實(shí)驗(yàn)證明,eForest在精度和速度方面表現(xiàn)良好,而且具有容損和模型可復(fù)用的能力。尤其是在文本數(shù)據(jù)上,僅使用10%的輸入比特,模型仍然能夠以很高的精度重建原始數(shù)據(jù)。

eForest的另一個(gè)優(yōu)點(diǎn)在于,它可以直接用于符號(hào)屬性或混合屬性的數(shù)據(jù),不會(huì)將符號(hào)屬性轉(zhuǎn)換為數(shù)字屬性,在轉(zhuǎn)換過(guò)程通常會(huì)丟失信息或引入額外偏差的情況下,這一點(diǎn)就顯得尤為重要。

需要注意,監(jiān)督eForest和無(wú)監(jiān)督的eForest實(shí)際上是由多粒度級(jí)聯(lián)森林gcForst構(gòu)建的深度森林在每一級(jí)同時(shí)使用的兩個(gè)成分。因此,這項(xiàng)工作也可能加深對(duì)gcForst的理解。構(gòu)建深度eForest模型也是未來(lái)值得研究的有趣問(wèn)題。

方法提出:一種可能是最簡(jiǎn)單的森林后向重建策略

自編碼器有兩大基本功能:編碼和解碼。編碼對(duì)于森林來(lái)說(shuō)很容易,因?yàn)閱问侨~節(jié)點(diǎn)信息就可以被視為一種編碼方式,而節(jié)點(diǎn)的子集甚至分支路徑都可能為編碼提供更多信息。

編碼過(guò)程

首先,我們提出EncoderForest的編碼過(guò)程。給定一個(gè)含有T顆樹(shù)的訓(xùn)練好的樹(shù)集成模型,前向編碼過(guò)程接收輸入數(shù)據(jù)后,將該數(shù)據(jù)發(fā)送到集成中的樹(shù)的每個(gè)根節(jié)點(diǎn),當(dāng)數(shù)據(jù)遍歷所有樹(shù)的葉節(jié)點(diǎn)后,該過(guò)程將返回一個(gè)T維向量,其中每個(gè)元素t是樹(shù)t中葉節(jié)點(diǎn)的整數(shù)索引。

Algorithm1展示了一種更具體的前向編碼算法。注意該編碼過(guò)程與如何分割樹(shù)節(jié)點(diǎn)的特定學(xué)習(xí)規(guī)則是彼此獨(dú)立的。例如,可以在隨機(jī)森林的監(jiān)督環(huán)境中學(xué)習(xí)決策規(guī)則,也可以在無(wú)監(jiān)督的環(huán)境(例如完全隨機(jī)樹(shù))中學(xué)習(xí)。

解碼過(guò)程

至于解碼過(guò)程,則不那么明顯。事實(shí)上,森林通常用于從每棵樹(shù)根到葉子的前向預(yù)測(cè),如何進(jìn)行向后重建,也即從葉子獲得的信息中推演原始樣本的過(guò)程并不清晰。

在這里,我們提出了一種有效并且簡(jiǎn)單(很可能是最簡(jiǎn)單的)策略,用于森林的后向重建。首先,每個(gè)葉節(jié)點(diǎn)實(shí)際上對(duì)應(yīng)于來(lái)自根的一條路徑,我們可以基于葉節(jié)點(diǎn)確定這個(gè)路徑,例如下圖中紅色高亮的路徑。

其次,每條路徑對(duì)應(yīng)一個(gè)符號(hào)規(guī)則,上圖中高亮的路徑可以對(duì)應(yīng)以下規(guī)則集,其中RULEi對(duì)應(yīng)森林中第i顆樹(shù)的路徑,符號(hào)“:”表示否定判斷:

然后,我們可以推導(dǎo)出最大相容規(guī)則(MCR)。從上面的規(guī)則集中可以得到這樣的MCR:

這個(gè)MCR的每個(gè)組成部分覆蓋范圍都不能擴(kuò)大,否則就會(huì)與其他條件沖突。因此,原始樣本不得超出MCR定義的輸入?yún)^(qū)域。Algorithm2對(duì)這一規(guī)則給出了更詳細(xì)的描述。

獲得了MCR后,就可以對(duì)原始樣本進(jìn)行重建。具體說(shuō),給定一個(gè)訓(xùn)練好的含有T棵樹(shù)的森林,以及一個(gè)有中前向編碼的特定數(shù)據(jù),后向解碼將首先通過(guò)中的每個(gè)元素定位單個(gè)葉節(jié)點(diǎn),然后根據(jù)對(duì)應(yīng)的決策路徑獲得相應(yīng)的T個(gè)決策規(guī)則。通過(guò)計(jì)算MCR,我們可以將返回給輸入?yún)^(qū)域中的。Algorithm3給出了具體的算法。

通過(guò)前向編碼和后向編碼運(yùn)算,eForest就能實(shí)現(xiàn)自編碼任務(wù)。

此外,eForest模型還可能給出一些關(guān)于決策樹(shù)集成模型表征學(xué)習(xí)能力的理論洞察,有助于設(shè)計(jì)新的深度森林模型。

實(shí)驗(yàn)結(jié)果

作者在監(jiān)督和無(wú)監(jiān)督條件下評(píng)估了eForest的性能。其中,下標(biāo)500和1000分別表示含有500顆和1000顆樹(shù)的森林,上標(biāo)s和u分別表示監(jiān)督和無(wú)監(jiān)督。在這里eForestN將輸入實(shí)例重新表示為N維向量。

相比基于DNN的自編碼器,eForest在圖像重建、計(jì)算效率、模型可復(fù)用以及容損性實(shí)驗(yàn)中表現(xiàn)都更好,而且無(wú)監(jiān)督eForest表現(xiàn)有時(shí)候比監(jiān)督eForest更好。此外,eForest還能用于文本類型數(shù)據(jù)。

圖像重建

文本重建

由于基于CNN和MLP的自編碼器無(wú)法用于文本類型數(shù)據(jù),這里只比較了eForest的性能。也展示了eForest可以用于文本數(shù)據(jù)。

計(jì)算效率

容損性

模型可復(fù)用

論文地址:https://arxiv.org/pdf/1709.09018.pdf

標(biāo)簽:

點(diǎn)贊

分享到:

上一篇:工業(yè)以太網(wǎng)三部曲

下一篇:FF157減速機(jī)電機(jī)轉(zhuǎn)速和扭矩計(jì)...

中國(guó)傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來(lái)源:中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(www.connectcrack.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來(lái)源“中國(guó)傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來(lái)源的稿件,均來(lái)自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來(lái)源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

網(wǎng)站簡(jiǎn)介|會(huì)員服務(wù)|聯(lián)系方式|幫助信息|版權(quán)信息|網(wǎng)站地圖|友情鏈接|法律支持|意見(jiàn)反饋|sitemap

傳動(dòng)網(wǎng)-工業(yè)自動(dòng)化與智能制造的全媒體“互聯(lián)網(wǎng)+”創(chuàng)新服務(wù)平臺(tái)

網(wǎng)站客服服務(wù)咨詢采購(gòu)咨詢媒體合作

Chuandong.com Copyright ?2005 - 2025 ,All Rights Reserved 深圳市奧美大唐廣告有限公司 版權(quán)所有
粵ICP備 14004826號(hào) | 營(yíng)業(yè)執(zhí)照證書 | 不良信息舉報(bào)中心 | 粵公網(wǎng)安備 44030402000946號(hào)