神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)某件事情,是靠加強(qiáng)神經(jīng)元之間的連接,也即調(diào)整權(quán)重來完成。這也意味著,一旦神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)了做某件事情,神經(jīng)元之間的連接也固定下來,于是,再讓這個(gè)神經(jīng)網(wǎng)絡(luò)學(xué)做另一件事情,就必須改變已有的連接/權(quán)重,相當(dāng)于不得不“忘記”已經(jīng)學(xué)到的知識(shí)。 這種現(xiàn)象被人工智能研究人員稱之為“災(zāi)難性遺忘”問題(catastrophic forgetting)。今年 3 月,在 AlphaGo 獲勝一周年的時(shí)候,DeepMind 在 PNAS 發(fā)表研究成果,利用監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí),讓神經(jīng)網(wǎng)絡(luò)成功在學(xué)習(xí)新任務(wù)的同時(shí),不忘老的任務(wù),向著自適應(yīng)學(xué)習(xí)邁出重要一步,也證明了災(zāi)難性遺忘并非不可逾越的問題。 具體說,當(dāng)時(shí) DeepMind 研究人員借鑒了神經(jīng)科學(xué)的原理,從哺乳動(dòng)物和人類的大腦固化以往知識(shí)的理論中汲取靈感,提出“彈性權(quán)重固化”(Elastic Weight Consolidation,EWC)方法,讓系統(tǒng)在學(xué)會(huì)玩一個(gè)游戲以后,不忘此前學(xué)到的內(nèi)容,繼續(xù)學(xué)習(xí)玩新的游戲。 在發(fā)表這項(xiàng)成果時(shí),DeepMind 研究員表示,他們的工作證明了神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)序列性學(xué)習(xí),但對(duì)學(xué)習(xí)效率是否有提升還不明確。 日前,兩項(xiàng)分別來自 MIT 和谷歌的研究,在此基礎(chǔ)上更進(jìn)一步,讓人工智能系統(tǒng)在同一時(shí)間能夠完成多項(xiàng)任務(wù)。其中,谷歌的研究還揭示了對(duì)應(yīng)完成單獨(dú)任務(wù)的模塊及相應(yīng)學(xué)習(xí)效率的聯(lián)系。它們都為人工智能系統(tǒng)邁向“通用”“全能”打下了重要的基礎(chǔ)。 MIT 研究:讓神經(jīng)網(wǎng)絡(luò)具有“通感”的能力 谷歌的研究新智元此前已經(jīng)有相關(guān)報(bào)道,所以,我們首先來看 MIT 的研究。 在接受 QZ 采訪時(shí),MIT 研究的第一作者、博士后 Yusuf Aytar 表示,他們研究的關(guān)鍵在于“一致”(align)。 在這項(xiàng)工作中,MIT 的研究人員并沒有教給他們的算法任何新東西,而是創(chuàng)造了一種方法,讓算法能將不同形式的概念——聲音、圖像和文字——聯(lián)系起來。例如,輸入一段足球賽的音頻,系統(tǒng)會(huì)輸出另一段與足球賽相關(guān)的音頻,還輸出踢足球的圖像和文字描述。 為了訓(xùn)練這個(gè)系統(tǒng),MIT 的研究人員首先向神經(jīng)網(wǎng)絡(luò)展示了與音頻相關(guān)聯(lián)的視頻。網(wǎng)絡(luò)首先將視頻中的物體和音頻中的聲音關(guān)聯(lián)起來,然后會(huì)試著預(yù)測(cè)哪些對(duì)象與哪個(gè)聲音相關(guān)。例如,在什么時(shí)候波浪會(huì)發(fā)出聲音。 接下來,研究人員將配有類似情況的圖說的圖像饋送到網(wǎng)絡(luò)中,讓算法將文字描述與物體和動(dòng)作相關(guān)聯(lián)。首先,網(wǎng)絡(luò)識(shí)別出圖片中所有的物體,以及音頻中所有的相關(guān)單詞,然后將詞和物體關(guān)聯(lián)起來。 除了輸入音頻,輸出圖像和文字,研究人員還做了其他實(shí)驗(yàn),比如輸入一張吉娃娃犬的圖片,算法能夠輸出一段帶有(其他類型的)狗叫聲的音頻、其他狗的圖片和描述狗的文字。 MIT 研究的意義在于,在使用音頻和圖像,以及圖像和文本訓(xùn)練后,系統(tǒng)能夠?qū)⒁纛l和文本匹配起來,而這是系統(tǒng)之前沒有接觸過的。研究人員表示,這表明系統(tǒng)生成了一個(gè)更客觀的觀念,能夠?qū)⒖吹健⒙牭交蜷喿x到的信息關(guān)聯(lián)起來,而不僅僅依賴訓(xùn)練時(shí)接觸到的信息。 Aytar 在接受 QZ 采訪時(shí)說:“系統(tǒng)知道 [斑馬] 是一種動(dòng)物,它知道斑馬會(huì)產(chǎn)生這種聲音,而且在本質(zhì)上知道這種信息是跨模式傳遞的(across modalities)。”這樣的假設(shè)使算法能在各種概念間建立新的聯(lián)系,加強(qiáng)對(duì)世界的理解。 谷歌大腦研究:一個(gè)深度學(xué)習(xí)模型,語音、圖像、文本“通吃” 或許你已經(jīng)知道了,谷歌的研究就是之前新智元報(bào)道過的,“用一個(gè)模型學(xué)會(huì)所有問題”(One Model to Learn Them All)。 谷歌研究人員提出了一個(gè)多模型適用的架構(gòu) MultiModel,用單一的一個(gè)深度學(xué)習(xí)模型,學(xué)會(huì)各個(gè)不同領(lǐng)域的多種不同任務(wù)。 具體說,谷歌研究員同時(shí)在以下 8 個(gè)任務(wù)上訓(xùn)練 MultiModel: (1)WSJ 語料庫 (2)ImageNet 數(shù)據(jù)集 (3)COCO 圖說生成數(shù)據(jù)集 (4)WSJ 語義解析數(shù)據(jù)集 (5)WMT 英-德翻譯語料庫 (6)與(5)相反:德-英翻譯語料庫 (7)WMT 英-法翻譯語料庫 (8)與(7)相反:德-法翻譯語料庫 圖1:MulitModel 能夠完成不同領(lǐng)域不同任務(wù)。其中,紅色表示語言相關(guān)的任務(wù),藍(lán)色表示分類相關(guān)的任務(wù)。 MultiModel 由多個(gè)部分構(gòu)成,比如不同的卷積層、注意力機(jī)制和混合專家層。每個(gè)部分此前都沒有在其他任務(wù)上訓(xùn)練過。例如,卷積層此前沒有處理過文本或語音任務(wù);混合專家層也沒有處理過圖像或語言相關(guān)的任務(wù)。 作者發(fā)現(xiàn),每個(gè)單獨(dú)的模塊對(duì)于相應(yīng)的任務(wù)而言都十分重要,比如注意力機(jī)制在解決與翻譯相關(guān)的任務(wù)時(shí),遠(yuǎn)比在處理圖像任務(wù)中重要。 MultiModel 的架構(gòu)示意圖 實(shí)驗(yàn)結(jié)果,谷歌研究人員提出的模型在所有上述任務(wù)中都取得了良好的結(jié)果——雖然具體到一項(xiàng)任務(wù),結(jié)果并不是當(dāng)前最佳的。 類似,MIT 的系統(tǒng)也并沒有在所有單項(xiàng)任務(wù)上取得最佳結(jié)果。 不過,Aytar 認(rèn)為這并不是問題。“當(dāng)你使用的傳感器多了,準(zhǔn)確度就會(huì)提高?!?/p> |
|