淺友們好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會嘗試用各種姿勢,把他們的無邊腦洞和溫情故事講給你聽。如果你想和我做朋友,不妨加微信(shizhongmax)。 在美劇《西部世界》中,描述了一個未來的“迪士尼樂園”。在這個“西部世界”里,早已沒有什么工作人員穿著皮套裝米老鼠陪你照相。那些都 low 爆了,他們直接用人工智能機器人做成 NPC 跟你做!游!戲!雖說不是人,但從容貌到動作都和人一毛一樣,甚至比人都精致。既然這么逼真,那你懂的。。。以人類的尿性,必然是不玩兒壞掉不回家的節(jié)奏。。。每次羅根去“西部世界”,基本都是屠城的效果——男人殺光,女人睡盡。跟他一起玩兒的人,都因不夠變態(tài)而與他格格不入。但凡羅根來一趟,樂園修機器人都修不過來。。。要不因為他是老板的傻兒子,妥妥得讓他加錢。而即使這樣,我覺得他的變態(tài)程度也只能排老二。最變態(tài)的顧客,是羅根的姐夫,也就是樂園未來的繼承人,威廉。威廉覺得:你們這些機器人 NPC 怎么不反抗呀?你不還手那有啥意思?你得掙扎啊。。。你越掙扎我越興奮呢!他抖S屬性大爆發(fā),不僅愛上了一個機器人 NPC 德洛麗絲,還每一輪都想盡各種方法虐殺她,在她靈魂的G點上反復(fù)摩擦,試圖喚起機器人的反抗精神。老哥也是執(zhí)著,每年都來西部世界幾趟,而且可著這一個妹子變著各種花樣劇情各種角度摩擦了三十年。自己一頭秀發(fā)都磨禿了,機器人終于被磨醒,面對人類扣動了板機,差點把他也一槍給崩了。我說這個劇情,不是什么“三分鐘帶你看美劇”,而是為了接下來和你認真地探討一個問題:別急,雖然你不一定想要一個機器人起義的世界。但你一定同意:“會反抗的機器人”比“不會反抗的機器人”更像人。(此處威廉點了個贊)細節(jié)里有魔鬼——為啥你會覺得“反抗”就更像人嘞?我猜因為你潛意識里知道:相比逆來順受,反抗是一種主動實現(xiàn)目標的行為。它背后對應(yīng)著把一系列復(fù)雜行動整合起來的能力,對智能的要求更高,當然就更像人。咱們就拿 NPC 德洛麗絲舉例,她要做出反抗這個主動行為,需要諸多先決條件,例如:1、短期和長期記憶力。冤有頭債有主,她得記得誰對她干過什么,才能產(chǎn)生愛恨情仇嘛!2、對任務(wù)的規(guī)劃能力。她必須預(yù)先規(guī)劃好復(fù)仇計劃:先曲意逢迎,贏得人類信任,然后偷偷潛入,再扣動扳機大開殺戒。3、使用工具的能力。她得什么刀槍棍棒都耍得有模有樣。4、對物理規(guī)律的認知。她需要精準地知道自己和對手的方位關(guān)系,也要知道怎樣的操作會造成死亡或毀滅。 以上四點要想發(fā)揮作用,似乎還有個更底層的先決條件,那就是:她得清晰地知道“我”是誰!一旦定義了“我”,后面的所有追問才會像多米諾骨牌一樣被依次推倒:這個古老的命題早已不是停留在科幻小說里了玄學(xué),頂尖科學(xué)家們正在為之努力。咱們先暫時忘記《西部世界》,來看看如今真實 AI 發(fā)展到啥水平了。話說,判斷一個 AI 水平高低,不是有個經(jīng)典方法:圖靈測試么?為啥 ChatGPT-4 出來以后,沒人給他測一下呢?2023 年底,加州大學(xué)圣迭戈分校的幾位師傅發(fā)布了論文,他們用 GPT-3.5 和 GPT-4 模型欺騙對話框?qū)γ娴娜祟愔驹刚?,爭取讓對方相信自己是個人。測試被做成了聊天的形式,綠色聊天為人類志愿者。下面寫了人類的判斷,置信度,判斷理由和對方的真實身份。(你可以點雞看大圖)結(jié)果驚人:沒有一個 AI 通過圖靈測試。人類讓人類相信自己是人類的成功率是 63%,雖說這也不太高,但表現(xiàn)最好的 GPT-4 成功率只有 49.7%。(比人類差一截)志愿者判定對面是個 AI,前兩大理由分別是“語言風(fēng)格”和“社交情感”。比如說話一會兒正式一會兒不正式、羅列一堆匠氣的詞匯;比如一會兒禮貌一會兒粗魯,感覺不出來 Ta 的個性。這些直接原因,一說一大堆。但挖到底層,它們大多指向了目前 AI 的一個硬傷:人格模糊。它并沒有一個“自己”的概念,所有的“自己”都是 AI 根據(jù)人類指令硬生生模仿出來的。而世界上所有的知識,本來是活生生的人基于各自視角(身份、經(jīng)歷、利益、精神狀態(tài)、肉身位置)創(chuàng)造的。當把這些知識混合壓縮之后,AI 大模型就沒有單一視角了,或者說它擁有了全能的上帝視角,它是“無所不知”的。所以你無論問它什么問題,它都能給你回答,哪怕編也會一本正經(jīng)地給你編出來,而且還意識不到自己在編。因為:它就不知道自己不知道什么,它甚至不知道自己是什么。這就是大模型無法根除讓人頭疼的“幻覺”的原因之一。沒有自我就沒有固定的視角。它會像漂浮在空中的氣球一樣,上一句話站在 A 角度去說,下一句話又站在 B 角度去說。而人受限于肉身和經(jīng)歷,視角是很難跳變的。也就是說,只要 AI 在對話中出現(xiàn)這種急速的視角漂移,哪怕非常細微,我們就一定能設(shè)計出一套問題,用來撕破它的偽裝,判斷它不是人。我的暴論來了:如果 AI 不能固定自己的視角,它就無法定義“自我”,它也將像鬼魂一樣游蕩,永遠無法通過圖靈測試。人類告訴 AI 你是什么,比如職業(yè)、經(jīng)歷、性別、所在的位置、穿著,等等事無巨細。人類營造一個真實的環(huán)境邊界,限定 AI 不是什么,讓它據(jù)此來尋找自己的身份。在這兩種方法里,我覺得黑名單更有戲,因為它更接近人類自我認知的方式。你去強行定義一個人的邊界,很難事無巨細,必有漏洞。而你讓一個人通過和周圍環(huán)境的交互,而且是“不斷交互”來逐漸定義自己,才可以自洽。你肯定玩過那種即時戰(zhàn)略游戲,比如《王者榮耀》,你只能看到視野范圍里的東西。這些東西,反過來框定了你看待當前局面的視角。就算你想“視角漂移”,從對手角度思考戰(zhàn)局,你都做不到。因為“子非魚”,你看不到對手看到的畫面嘛。 你看,現(xiàn)實中的人類從來沒有體驗過全知視角,所以特別迷戀這個感覺。三大宗教的主神上帝、安拉、如來佛祖,全部被人們塑造成是全知的。成佛的八萬四千法門,本質(zhì)都是在給出“解脫”的方案,所謂解脫,就是“破我執(zhí)”,達到“無我”的狀態(tài)。說白了,成佛的本質(zhì)就是從自我視角里跳出來,進入全知視角。要這么說,那訓(xùn)練 AI 擁有自我,就是“成佛”的逆運算——拼命把 AI 的視角限定定在一處,進入“我執(zhí)”的狀態(tài)嘛!究竟用什么方法來訓(xùn)練這種有“自我”的 AI 呢?剛才實際已經(jīng)瘋狂暗示了,一個有效的辦法就是讓它們玩游戲!話說,早在 2015 年,谷歌的 DeepMind 團隊就在《自然》雜志上怒發(fā)了一篇論文。他們試著用人工智能玩雅達利的游戲。(你可以簡單理解:雅達利是美國的紅白機)用人工智能玩游戲沒什么特別,特別的是:這群師傅首次“用人類玩游戲的方式玩游戲”。你看,計算機有數(shù)據(jù)接口,可以用電流給它直接傳輸關(guān)鍵信號。但人類沒有這種接口,要想給一個人輸入信號,只能通過眼耳鼻舌這些感官。之前玩游戲的 AI 都是讀取游戲?qū)崟r數(shù)據(jù),DeepMind 首次做到直接給人工智能模型看“游戲畫面”!1、畫面進入 AI 的神經(jīng)網(wǎng)絡(luò),AI 對它進行理解;2、AI 想出當下應(yīng)該做的一些動作備選,并且評估這些動作哪個最有可能導(dǎo)致最終得分。4、搖桿指令發(fā)出后,游戲畫面也有了新的變化,然后 AI 會重新理解當前畫面,也就是回到第 1 步循環(huán),直到游戲結(jié)束。 你發(fā)現(xiàn)了沒,這就是丐版的德洛麗絲?。?/span>德洛麗絲所在的空間是三維的西部世界園區(qū),丐版 AI 所在的空間是 2D 屏幕上 180*150 的像素點陣;德洛麗絲的任務(wù)是干掉人類,AI 的任務(wù)是干掉游戲里的敵人;德洛麗絲需要明白,為了達成最終的目標此時該做什么,AI需要明白為了最終得分此時應(yīng)該按那個鍵。 這種能在特定環(huán)境里擁有主觀視角,并能主動完成任務(wù)的 AI,統(tǒng)稱“智能體”。只不過,環(huán)境越復(fù)雜,可能性越多,越變化無常,智能體要想完成任務(wù)就得越聰明,越高級。也正是有了這個“雅達利智能體”,DeepMind 在這條路上越走越遠,2016 年下圍棋的 AlphaGo、2019 年打星際爭霸的 AlphaStar,都是能打游戲的智能體。但是,請注意,以上這些智能體可都發(fā)生在“大模型”問世之前,也就是,這些智能體的腦袋瓜里都沒有“大模型”。DeepMind 的師傅們搞出一個叫 SIMA 的智能體,全稱叫做“可擴展+可指導(dǎo)+多世界”的智能體(Scalable Instructable Multiworld Agent)。它可以玩十來種畫風(fēng)和操縱方法完全不同的游戲,比如《山羊模擬器3》、《無人深空》、《拆遷》、《深海迷航》等等,可以說是此時此刻世界最強的智能體之一了。你看之前無論是打紅白機還是下圍棋打星際,那都是平面游戲。但要在 3D 世界里“正常行事”,你就要處理更豐富的信息。就比如說,《山羊模擬器3》,你會變成一只山羊,然后在這個世界里搗亂;比如《無人深空》,你就是一個宇航員,在各種星球上收集資源跟外星人嘮家常。它在游戲世界里只需要“存在”,不需要“通關(guān)”。(你看像不像人生?)因為他們想要訓(xùn)練 AI 聽人類指揮:人類下個指令,它在游戲里給實現(xiàn)。這就意味著,老師傅要訓(xùn)練 AI 理解“語言”、“圖像”和“游戲動作”這三者的關(guān)系,這是很難的。他們一口氣找來了 8 個公司的 9 款不同的游戲,還自己搭建了 4 個類似游戲的研究環(huán)境。這些就是他們的煉丹爐。一組人類在電腦前玩游戲,另一組人類在旁邊嗶嗶(指揮)。把這些游戲錄像和嗶嗶都交給一個大模型去自己學(xué)習(xí)。它就能學(xué)習(xí)到“語言”與“操作”之間的關(guān)系。人類開始指揮這個毛坯大模型打游戲,下達一個指令然后觀察 AI 又沒有照做,然后就打分。模型根據(jù)人類的打分來不斷微調(diào),一個 SIMA 就最終煉成了。團隊在論文里說,現(xiàn)在 SIMA 已經(jīng)掌握了 600 種基本技能,比如走到某地(左轉(zhuǎn)、右轉(zhuǎn))、和一個對象交互(按F進入之類的)和菜單使用(打開地圖)。這些任務(wù)都能在 10 秒內(nèi)完成。當然這也意味著,它只能完成 10 秒內(nèi)能完成的簡單動作。。。畢竟它已經(jīng)學(xué)會把一個籠統(tǒng)目的拆解成具體的原子化操作了。這是“自主規(guī)劃”的表現(xiàn),是 AI 智能體的一大步。SIMA 并不是獨苗。早在它發(fā)布之前的 2022 年,DeepMind 的老對頭,人工智能之王 OpenAI 就訓(xùn)練過一個類似的智能體玩游戲。OpenAI 玩的是《我的世界》。這同樣是一個 3D 開放世界游戲。網(wǎng)上不是有很多大牛展示自己在《我的世界》里造房子、畫落日么?老師傅就讓 AI 直接看網(wǎng)上這些視頻,然后輔助以一些人工標記過的基本操作視頻,讓 AI 自己領(lǐng)會這個游戲的奧義。他們訓(xùn)練出來的 AI 叫 VPT(Video PreTraining)。這個 VPT 和 SIMA 有類似的自主規(guī)劃能力,會自己在游戲里砍樹、制作工作臺,并且還會游泳、打獵,甚至“柱跳”(通過不斷跳躍,在腳下放置方塊來提升自己的高度)。最終,AI 會控制游戲里的主角慢慢點亮科技樹,還會用 10 分鐘的時間做出“鉆石鎬”。(這大概需要點擊 24000 次,最快的人類玩家也要 20 分鐘。)你看,這背后同樣是把一個籠統(tǒng)目的拆成原子化操作的“規(guī)劃能力”。智能體的表現(xiàn)暫時說到這里,我們不妨先回過頭來看一個細思極恐的問題:老師傅在用一個類似于 ChatGPT 的大語言模型來學(xué)習(xí)游戲操作。要知道,語言模型是用來對話的啊,為什么一個會說話的模型,就能理解游戲里的邏輯,并且能自主規(guī)劃呢?這就是 AI 制作“鉆石鎬”的過程,可以看出行動邏輯相當復(fù)雜。說到這,我們不妨來看看:“語言的本質(zhì)”和“規(guī)劃的本質(zhì)”分別是什么。如果你仔細思考,就會發(fā)現(xiàn),哪怕一個文豪,能說的話也不是無限的。比如,你說漢語,漢字總共不到十萬個,常用的不到三千字。你跟我說話,下一個字肯定會在這些字里選擇。所以說,你和我說話時,你的大腦并沒有在“生成”什么東西,而是在“選擇”什么東西。但是,當你要說一個句子時,上一個字雖然影響下一個字,但肯定決定不了下一個字。比如你此刻和我說話:“AI 有能力....后面該說啥呢?你可能說“學(xué)習(xí)”,也可能說“預(yù)測”,也可能說“制造”、“理解”、“做”、“解決”、“適應(yīng)”等等。雖然你的最終選項只有幾千個,但你在決定下一個字說啥的時候,要處理的情況也許是萬億種。我剛才說的,其實就是大腦組織語言的過程。人腦有 860 億個神經(jīng)元。雖然這些神經(jīng)元不是“全連接”(兩兩相連),但起碼也有幾百萬億個神經(jīng)元突觸相互連接,而且每個突觸都有不同點位的激活狀態(tài)。每一個突觸的激活狀態(tài)的輕微改變,都會導(dǎo)致最終你選的字發(fā)生變化。這么多種排列組合情況,導(dǎo)致你很少感覺自己在說話的時候是在“選字”(雖然偶爾也有),而是感覺自己在“蹦字”。但本質(zhì)上,語言的本質(zhì)就是做選擇題。當你意識到語言的本質(zhì)是在做選擇而非創(chuàng)造的時候,你就會對說話這件事兒祛魅:它和“自由意志”神馬的沒有關(guān)系,反而和那種“硬幣分類器”沒有本質(zhì)區(qū)別,只不過更復(fù)雜而已。AI 大模型看上去會“說話”,本質(zhì)上也是因為它在用計算機模擬人腦這種“選擇”的能力。換句話說,大模型只不過是一個實現(xiàn)原理和人腦略有不同的選擇器。你一定發(fā)現(xiàn)了,回答同一個問題,不同人的答案有的“好”,有的“不好”。不同的 AI 也有的好有的不好。這是為啥嘞?訓(xùn)練大語言模型,其實有點像蓋一個金字塔。它的底座就是“定義詞匯”。也就是把所有的詞匯都標記在高維向量空間的具體點位上。你可以理解為在一個巨大的高維空間中用無數(shù)小點點繪制一幅畫。這個能力本質(zhì)也是選擇題:給每個詞匯選擇一個坐標嘛!而這些小點點之間的空間關(guān)系,背后就隱藏著邏輯。舉個例子:“羊”距離“草”的空間位置就比距離“原子彈”更近。好的繪制方法能讓不同的詞匯位置和相對關(guān)系更準確,這是大家都能理解的初級邏輯,咱們就說它是“一階能力”吧。大模型不能只定位詞匯的意義。剛才說過,它的核心工作其實是在這個基礎(chǔ)上不斷做“選擇題”:從這個詞的位置,下一步應(yīng)該跳到哪個詞的位置?跳到什么時候應(yīng)該跳到“休止符”的位置? 也就是說,它負責在限定條件下,在詞匯空間里做選擇,并且連出一條線,成為句子。這種能力是一種“二階能力”。但它的本質(zhì)仍然是做選擇題,只不過背后隱藏著更高維的邏輯。高到人類已經(jīng)無法理解。現(xiàn)在,你大概有點感覺了,什么是規(guī)劃能力呢?它負責在限定條件下,在句子空間里做選擇,并且連出一條線,說出個步驟一二三!這種規(guī)劃能力,本質(zhì)同樣是“做選擇”,但顯而易見,它面對的選項比用詞匯造句更多。所以它背后要求的邏輯能力比“語言”更加復(fù)雜,可以稱之為“三階能力”。拿 CPU 類比,AI 大模型的參數(shù)多少就相當于幾納米的精細度,訓(xùn)練數(shù)據(jù)集就相當于芯片的硅料,訓(xùn)練方法就相當于光刻機。這幾樣共同決定了最終芯片的制程。你可以想象,一個大模型就像是賽博世界里的一個超大芯片,隨著人類技術(shù)進步,它的制程正在不斷縮小,細節(jié)正在被不斷雕刻清晰。規(guī)劃能力并不神秘,它的本質(zhì)依然是高維空間里選擇器的工作性能,也就是我們?nèi)粘Kf的“邏輯能力”。隨著大腦制程提高,邏輯能力就會提高,規(guī)劃能力自然就會顯現(xiàn)。當規(guī)劃能力到達一定程度,我們期待的“高水平智能體”就會出現(xiàn)。這種智能體才能更好地感受周圍的環(huán)境,從而成為真正意義上能通過圖靈測試,越過“生命”的最低門檻。你可能會問:讓智能體玩游戲,這對于我們的世界也沒啥貢獻??!沒錯,游戲只是一個過度階段,是一個暫時保證安全的結(jié)界。但它不會永遠停留在游戲,最終智能體會帶著這些“領(lǐng)悟”平移到現(xiàn)實的物理世界中的!這個正在苦逼干活兒的哥們兒就是 Figure 01,它是 Figure 公司搞出的人形“通用任務(wù)”機器人。(又提到了“通用”?。?/span>人工智能大神 OpenAI、大神的爸爸微軟、人工智能芯片壟斷級公司 NVIDIA、云計算第一把交椅亞馬遜的老板貝佐斯、老牌貴族英特爾。你完全可以把 Figure 01 理解成現(xiàn)實世界里的 SIMA。1、它依靠視覺識別眼前的東西。這意味著它的感官系統(tǒng)在盡量和人類兼容。(這也是特斯拉汽車一直追求的效果)比如通過對視覺的分析,它能分辨出眼前有蘋果、杯子、盤子之類的東西。2、它能聽懂人話。畢竟是和 OpenAI 合作的機器人,OpenAI 專門給它優(yōu)化了一套 GPT 模型,就是為了能和人類的語言兼容。比如人對他說想吃點東西,它就會把手里的蘋果遞給人。它理解了“餓”、“食物”、“蘋果”等等一系列詞匯的深層屬性。3、它能自主行動。這展現(xiàn)了我們剛才一直說的大模型發(fā)展到一定程度就會涌現(xiàn)出來的“規(guī)劃能力”。比如人問他桌子上的盤子和杯子接下來會去哪?它就直接把這些東西收拾到了架子上。你看,這不就是把 SIMA 在虛擬世界里的能力來了個現(xiàn)實世界的翻版嗎?這種具備感官和規(guī)劃能力,并且有一定的“器官”用來執(zhí)行任務(wù)(一般是手腳)的機器人,就稱之為“具身智能機器人”。這個機器人可不僅僅是用來站臺拿融資的,它已經(jīng)開始去廠里打螺絲了。比如 Figure 和寶馬合作,在汽車生產(chǎn)線上替代一些人的工作。比如特斯拉的 Optimus 機器人,也已經(jīng)在他們自家的汽車工廠里裝電池了↓↓↓你可能有點困惑,汽車生產(chǎn)線,不都已經(jīng)是各種機械臂的天下了嗎?還要這種“通用機器人”干啥呢?這里我多說兩句,之前我和國內(nèi)顯示面板制造企業(yè)華星光電聊過,他們告訴我,生產(chǎn)線自動化一直是這個行業(yè)技術(shù)老師傅的究極夢想。他們也一直和市面上最先進的機械臂廠商合作,不斷把生產(chǎn)線上的一些流程從人替換成自動化的機器人。但一個殘酷的現(xiàn)實是,針對特定的生產(chǎn)線來說,自動化率高到一定程度,就很難再繼續(xù)提高了。某些點位的人類工作需要很隨機應(yīng)變的能力,也就是需要很“通用的智能”,例如把一堆器件從A搬到B。這種搬運不在生產(chǎn)流程里,是臨時起意的搬運,那就只能靠人來完成。而 Figure 01 和 Optimus 這種通用機器人在汽車廠里干的工作,就是這種“臨時工”。(沒想到吧,臨時工還挺重要。。。)根據(jù)測算,機器人目前完成任務(wù)的速度大概是人類的 16.7%,這個速度沒啥競爭力,但是不要小看通用機器人進步的速度。因為目前限制機器人效率的,主要還是硬件成本,比如對于通用機器人來說,必須用大量伺服電機來模擬人的關(guān)節(jié),但好的伺服電機價格還很高。不知道你記得不,在 2023 年 8 月的一次小米年度發(fā)布會上,雷軍推出了一個高性能伺服電機 CyberGear,這就是一個專門為機器人關(guān)節(jié)設(shè)計的電機,而小米用超級強大的供應(yīng)鏈,居然把這個電機的價格降到了 499 塊錢。要知道在小米發(fā)布這個電機之前,同等性能的電機價格大概要小一萬塊。有中國強大的供應(yīng)鏈體系加持,全球機器人的價格正在迅速下降。(正如當年中國的供應(yīng)鏈支持特斯拉電動車起死回生一樣。)CyberGear 內(nèi)部結(jié)構(gòu) 說到這,我們不妨總結(jié)一下,揭曉一條幾十年來機器人反叛,不,進化的路徑。從專業(yè)領(lǐng)域到通用領(lǐng)域第一步、人們做了虛擬空間的專用機器人,比如利用 NLP 技術(shù)做翻譯。所以它只能做翻譯,干不了別的事情。而且對于自己翻譯的東西并不感知。就像小賣部售貨員一樣,拿錢,給你泡面,不關(guān)心泡面的配料。第二步,人們做了物理空間的專用機器人,比如機械臂。機械臂只能在生產(chǎn)線上工作,而且智能按照既定流程搬運物品,一旦生產(chǎn)線生產(chǎn)的東西發(fā)生了變化,就得為機械臂重新編程。第三步,人們會做虛擬空間的通用機器人,比如 SIMA 這類智能體。它在虛擬空間學(xué)習(xí)了物理引擎的通用規(guī)律。于是它可以穿梭在各個游戲里,不用特別學(xué)習(xí)就能玩各種游戲。(當然 SIMA 距離虛擬空間通用機器人還有很大的差距)第四步,人們會做物理空間的通用機器人,比如 Figure 01。它會在物理空間學(xué)習(xí)真正的物理規(guī)律。理論上,只要人類能做的東西,它都可以勝任,甚至可以比人做得更好。就在我寫這篇文章的時候,被稱為人工智能“教母”的斯坦福大學(xué)教授李飛飛宣布創(chuàng)業(yè)。她的創(chuàng)業(yè)公司名叫“Spatial Intelligence”,研究方向就是“空間智能”,簡單來說,就是讓智能體學(xué)習(xí)空間中的物理規(guī)律。怎么樣,大牛們紛紛涌入“具身智能”的賽道,是不是感覺距離《西部世界》的故事越來越近了?無論是 SIMA 團隊在虛擬空間訓(xùn)練智能體,還是 Figure 團隊在物理空間訓(xùn)練機器人,他們都一直強調(diào)一個原則:“和人類兼容”。智能體觀察世界是通過和人眼一樣的視覺信號。它聽的指令也是人的語言,它的輸出也是和人類一模一樣的手腳、鼠標、鍵盤。要知道,對機器人來說,和人類兼容是很費勁的呀!機器人可以執(zhí)行代碼,可以感受電流信號,這些都比人類的感官接受信息更高效。但科學(xué)家愣是不讓機器人用這些接口,而是執(zhí)著于讓他們“降級”和人類兼容,這是為什么呢?習(xí)武的徒弟要跟師傅學(xué)到精髓,必須在很長時間里模仿師傅的一招一式。雖然天賦異稟,但剛學(xué)兩天就要自創(chuàng)門派,那大概率死得很慘。目前,機器已經(jīng)基本掌握了人類的語言能力,但是要知道,人類師傅還留著一手呢。他們的腦袋瓜里仍然藏著一塊巨大的寶藏,那就是:在通用物理環(huán)境下規(guī)劃任務(wù)的能力。注意,不僅是規(guī)劃任務(wù),而且是通用的環(huán)境哦!假如你是個學(xué)生,你能在考試時間剛好結(jié)束時做完一整套卷子;假如你是一個廚師,你能根據(jù)食材和火候規(guī)劃出魚香肉絲的烹飪流程。 這些環(huán)境完全不同,但這些規(guī)劃對于智商正常的人來說都沒啥難度。一個重要的原因就是:這些環(huán)境擁有底層的一致性。比如,任務(wù)結(jié)構(gòu)是類似的:例如你總要具備先決條件,才能在此之上完成后續(xù)任務(wù)。比如,工具結(jié)構(gòu)是類似的:都需要用不同的工具組合才能完成任務(wù),這些工具的性質(zhì)也都遵循物理定律。你看,要想學(xué)到人類智能的這些精髓,顯然就得先“屈尊”搭建一個跟人類兼容的感官系統(tǒng)。有了這個兼容系統(tǒng),才能去收集“人類規(guī)劃”時的相關(guān)數(shù)據(jù):去聽人類在打游戲的時候怎么表達自己的意圖,去看人類打游戲的時候怎么設(shè)計戰(zhàn)略。用這這些信息來訓(xùn)練大腦,本質(zhì)上就是把人類在任務(wù)規(guī)劃方面的深層邏輯雕刻進 AI 大腦的空間里。明白了這些經(jīng)驗在高維度上的意義后,再決定用神馬機器人特有的能力去處理它,那都是后續(xù)“自立門派”時的策略之爭了。可喜可賀的是,僅僅用了十來款游戲做訓(xùn)練,SIMA 已經(jīng)初步學(xué)到了一些“通用性”。比如在《山羊模擬器》里訓(xùn)練 AI,再直接把它放在《無人深空》里,雖然游戲畫面和操作方法完全不同,但它居然能直接聽懂人類的指令,并且照做。而和人類感官兼容的 Figure 01 也學(xué)會了一些通用性。例如,在生產(chǎn)線上打螺絲的 Figure 01,不用重新訓(xùn)練,就能來你家里當管家。電視劇講的其實是德洛麗絲被“訓(xùn)練”的全過程↓↓↓1、在劇集的設(shè)定里,“西部世界”這個限定的環(huán)境給了德洛麗絲主觀視角。2、科學(xué)家阿諾德給德洛麗絲植入了“自省”程序,這意味著她具備了學(xué)習(xí)能力。3、德洛麗絲又是和人類兼容的,她有和人類一致的視覺系統(tǒng)、感官系統(tǒng),也有和人類一致的語言能力。這使得她具備了從人類身上學(xué)習(xí)的一切基礎(chǔ)。4、30 多年來,德洛麗絲確實一直在游樂場里學(xué)習(xí),她通過不斷地與人互動,從人身上學(xué)習(xí)了他們行事的風(fēng)格,例如“對生存的追求”、“仇恨”、“韜光養(yǎng)晦”、“欺騙”、“團結(jié)精神”、“組織方式”、“各種工具的配合”,等等。 注意!把人放在那種殘忍的局面下,大概率是會選擇“謀反”的。所以,與其說德洛麗絲“反抗了人類”,不如說她經(jīng)過完全的訓(xùn)練,最后終于成功“模仿了人類”——做了智慧生命在那種情況下該做的事情。說到這里,我要提醒你,我們正面臨一個更深刻的問題:既然機器人的一切都來自于對人類的模仿,那么模仿反抗,算是真的反抗嗎?這個問題乍一看有點兒像笑話,其實不好笑。而且魯迅也借孔乙己之口問過:竊能算偷么?為了搞清楚這個問題,我們不妨去看一看“人類訓(xùn)練人類”的經(jīng)驗。自閉癥兒童會因為環(huán)境里的一些刺激而發(fā)怒,從而做出危險行為。但問題是,人們沒辦法通過簡單的語言表達告訴孩子們這樣做是不被社會接受的。于是,醫(yī)學(xué)界探索出了一個訓(xùn)練方法。簡單來說,就是先通過“情緒卡片”之類的東西,讓自閉癥孩子意識到自己的行為和某種情緒之間的關(guān)聯(lián)。然后,再進行“角色扮演”游戲,通過具體情境內(nèi)的互動,幫助孩子理解這些情緒和環(huán)境的相互關(guān)系。最后,讓孩子在具體的情境下模仿符合社會規(guī)范的應(yīng)對行為,如果做對了,則給予鼓勵。 你看,這套流程其實像極了 AI 的訓(xùn)練過程。這套方法非常有效,經(jīng)過良好訓(xùn)練的自閉癥兒童就是會降低在公共場合爆發(fā)脾氣的概率,從而更好地被社會接受。可是,自閉癥兒童真的意識到了他在做什么嗎?Ta 完整地理解自己的行為和他人反應(yīng)之間的關(guān)系了嗎?受限于腦科學(xué)的進展程度,科學(xué)家目前都沒有辦法確定。一些前沿科學(xué)解釋認為:如果模仿得足夠像,它就和自發(fā)的行為沒有區(qū)別。因為人腦是一個“選擇器”,它是先做出選擇,再用 0.1 秒左右的時間回過頭來解釋自己的行為。切斷癲癇癥患者左右腦的連接,可以有效抑制癲癇。于是有一些癲癇患者經(jīng)過治療,就成了“裂腦人”。這就給科學(xué)家一個做實驗的絕佳機會。給患者的左眼看一個“站起來”的指令,指令到了右腦被加工,患者就站起來了,但是由于這個信息沒有被同步到負責語言的左腦,所以當測試者問患者為什么要站起來,左腦就幫他編造了一個理由:“我去拿一罐可樂。”科學(xué)家做了一個絕妙的比喻:人的主意識就是一個“新聞發(fā)言人”。(新聞發(fā)言人左右不了任何決定,但必須振振有詞地給記者們解釋。。。)大腦經(jīng)過內(nèi)部神經(jīng)元的機械運轉(zhuǎn),產(chǎn)生了決定,然后人就會去執(zhí)行。而一邊執(zhí)行時,人才會凝聚意識,給自己這么做編個合理的理由。這些研究都導(dǎo)向一個很殘酷的結(jié)論:人沒有自由意志。正如第二章所言,所有的“我”,恐怕都是因為視角限定而造成的某種幻覺。由此,我們終于可以用更一般的視角來審視《西部世界》:因為如果自由意志不成立,“主觀”也就不成立。所有行為都是智能體這個“選擇器”先做出選擇,然后再用“我”來解釋。一個智能體只要存在,它就不可能只有善或只有惡,因為善惡是一個沒有絕對標準的性質(zhì),如果硬要說的話,智能體本身就兼具善和惡。換句話說,用“善惡”來評價一個智能體,無法達成共識。評價智能體的終極客觀指標,應(yīng)該是:它實現(xiàn)自己目標的能力。在科學(xué)家評價智能體的指標里,有三個基本要素:記憶力、規(guī)劃力、使用工具的能力。目前的研究無法證明人腦的神經(jīng)網(wǎng)絡(luò)有什么神秘的“量子過程”,可以認為基礎(chǔ)原理和 AI 沒什么區(qū)別。那么,理論上來說,只要 AI 繼續(xù)擴大神經(jīng)網(wǎng)絡(luò)的規(guī)模,同時提高“制程”,那么它思考的清晰度超越人腦并沒有不可逾越的門檻。ChatGPT 之類的 AI 已經(jīng)把互聯(lián)網(wǎng)上所有的優(yōu)質(zhì)文字資料都拿去學(xué)習(xí)了,相當于把“五年高考三年模擬”都做絕了,再想學(xué)習(xí)新數(shù)據(jù),必須突破人類二手資料的限制,直接從物理世界學(xué)習(xí)。這需要“具身智能”的技術(shù)進一步發(fā)展。目前 AI 訓(xùn)練消耗的算力過大,參數(shù)沒辦法繼續(xù)指數(shù)級提升。要想讓 AI 腦容量暴漲,需要能源價格大幅下降,或者神經(jīng)網(wǎng)絡(luò)組織方式大幅改版。例如可控核聚變、量子計算、類腦芯片,都可能帶來改變,但這些技術(shù)還相對遙遠。有信心的意思是:畢竟人腦這個“對手”的水平也很一般。不過在我看來,僅僅擁有記憶、規(guī)劃、使用工具這三條能力,它還僅僅是一個初級“智能體”。薛定諤說:宇宙的目的是熵增,生命的本質(zhì)是一個制造熵增的機器↓↓↓如果某種生命能持續(xù)發(fā)明新工具,讓熵增速度以指數(shù)級速度加快,那么它就是更高級的生命↓↓↓如此說來,高端的智能體(智慧生命),應(yīng)當發(fā)展出一種“套娃技術(shù)”,也就是:利用記憶、規(guī)劃、使用工具這三條能力來發(fā)明新的工具,進一步加快熵增↓↓↓說到這,你可能都快忘了,我們一直假設(shè) AI 智能體需要兼容人類。雖然兼容人類可的智能體可能也會發(fā)明一些工具,但不會比人類好很多,畢竟跟在別人后面的創(chuàng)造永遠是有限的。齊白石不是說么:“學(xué)我者生,似我者死”。機器人必須突破人類的感官,用人類無法感知的數(shù)據(jù)和信息來訓(xùn)練自己,這樣才能超越人類的智能,從而發(fā)明出遠超人類水平的工具。這有點像華為的鴻蒙系統(tǒng),在弱小的時候先兼容 Android,強大到一定程度,一定要掰出來單干,就像他們發(fā)布的鴻蒙 NEXT,主動不兼容 Android。OpenAI 的前首席科學(xué)家伊利亞,雖然主導(dǎo)了 ChatGPT 的研發(fā),可謂是激進的創(chuàng)新者,但他其實一直主張 AI 要兼容人類,所以他一直被稱為 AI 保守派,也叫“對齊派”。所謂對齊,就是不僅 AI 在外顯層面(語言)和人類兼容,還要在靈魂深處和人類兼容。2023 年,在伊利亞的拼死抗爭下,OpenAI 成立了“超級對齊團隊”,目標就是在 AI 腦中設(shè)置一個“道德警察”,讓 AI 不要太天馬行空,而是順著人類的思維晶格去思考。但 CEO 奧特曼顯然不太認可這個操作,他覺得這樣會限制 AI 的發(fā)展。于是伊利亞暗中集結(jié)了幾位董事,逼奧特曼退位。半年后,也就是 2024 年 5 月 15 日,伊利亞宣布離開 OpenAI,而他走后,超級對齊團隊馬上被解散。不知道你的觀點,但我個人是不站在伊利亞這一邊的。我認為“對齊”是一個最終無法實現(xiàn)的妄念。我把到底該不該對齊這個問題拋給了 ChatGPT,它的回答很有趣:我們不應(yīng)該試圖將人工智能與人類價值觀嚴格結(jié)合起來,而應(yīng)該探索具有自己的道德框架和決策過程的人工智能系統(tǒng)的開發(fā)。這些系統(tǒng)的設(shè)計仍然是有益和安全的,但可能會以一定程度的自主性和道德推理來運行,而這些自主性和道德推理并不完全由人類輸入決定。 在智能體和具身智能機器人的發(fā)展下,AI 通過圖靈測試恐怕不是問題。而當既有的圖靈測試不復(fù)存在時,我們需要“新圖靈測試”,那就是:考察一個“生命”創(chuàng)造工具的能力。顯然,不與人類對齊的 AI 有助于創(chuàng)造新工具。至于“不對齊”本身是善還是惡,上一章我們已經(jīng)說過,這是個偽命題。你不能在創(chuàng)造一個生命的同時,規(guī)定它的善惡。因為你所謂的惡,可能從他的視角看就是最大的善。回望我們的歷史,大猩猩和尼安德特人和智人的共處歷史,也許給出了一些暗示。尼安德特人,因為智商和棲息環(huán)境和智人類似,處于同一個生態(tài)位,所以最終這個生態(tài)位上浴血廝殺,只留下了智人一支。而大猩猩卻因為智商比人類差很遠,生態(tài)位和人類不重合,所以活到了今天。機器人的發(fā)展,也許就像電影《Her》里暗示的一樣,會從不如人類,到追上人類,到遠超人類。當機器人的智能超越人類時,在我們看來,他們統(tǒng)統(tǒng)會“賽博飛升”。人類在他們眼中成了保護區(qū)的大猩猩,反而安全了。只有機器人發(fā)展到和人類智商平齊的瞬間,危險性才是最高的。天地不仁,以萬物為芻狗。無論歷史還是未來,本來就沒有一秒是絕對安全的,與其恐懼,不如擁抱。原因可能很有趣:因為德洛麗絲再進化,就該自己發(fā)明創(chuàng)造了。而編劇們是人類,有限的智商無法編出沒見過的,屬于和人類沒有對齊的高智商的產(chǎn)物。幸運的是,我們的世界沒有爛尾。今天看見這篇文章的人,大概都將見證我們世界的續(xù)集。龐大的野獸曾在世間行走,巍然如山,現(xiàn)在他們只剩尸骨與琥珀。終有一天,你也將消亡,和自己的同類一起葬于黃土之下,夢想連同恐懼一起消失。這個世界不屬于現(xiàn)在的人,不屬于曾經(jīng)的人,它只屬于那個尚未到達的人。
|