真智能涌現(xiàn)？從張無忌學(xué)太極劍看OpenAI新出的模型O1的“慢慢來比較快”|openai|劍法|太極劍|張三豐|張無忌|楊逍

碧海藍天kx32di 2025-01-02 發(fā)布于廣西

展開全文

OpenAI近期發(fā)布了其最新的模型O1，使得AI突然發(fā)生了躍遷。我們可以這么理解：它從一個文字功底較好但不懂理科的八股文秀才，突然搖身一變成為善于思考和推理的理科學(xué)霸。這究竟是如何實現(xiàn)的？我得先給你講個故事。

在《倚天屠龍記》當中有這么一個段子，張三豐曾當眾傳授張無忌太極劍法，張無忌很快學(xué)會并用新學(xué)的太極劍法擊敗了一代劍術(shù)名家方東白。張三豐當時先是演示了一連串劍招，演示完畢后，張三豐問：“你記住了多少招？”張無忌沒直接回答，而是說：“我忘了一小半?！?/p>

張三豐說：“你再想一想?！睆垷o忌思索了一會后，張三豐又問，張無忌這次回答得更離譜：“我忘記了一大半?！边@時候，五散人當中的周顛不干了，說：“我們教主雖然天賦異稟，但是張真人你這個劍法太高深，只看一遍記不住、記不住，能不能再演示一遍？張三豐聽罷，又一次把太極劍法演示了一遍。這一次演示后，不光周顛看懵了，在場的包括楊逍、殷天正等都看不懂，因為這一次張三豐演示的劍招和上一次演示的完全不一樣。接著張三豐又問：“這次怎么樣？”張無忌回答：“我還有三招沒忘?！彪S即張無忌又思索了一會兒，突然兩眼冒出金光，臉上洋溢著喜不自禁的表情說：“太師父，我已經(jīng)把所有的劍招都忘了?！庇谑撬蠄隽耍M管之前幾乎沒用過劍，但這次帶著一把木劍，就和用劍名家“八臂神劍”方東白開始對決。

△ 《倚天屠龍記》電視劇中，張三豐正向張無忌演示太極劍法

張無忌用的太極劍法其實就一招——畫圈圈。原文怎么寫的？說方東白連換六七套劍法，縱橫變化，奇幻無方，張無忌卻始終持劍畫圓。旁人除張三豐外，沒一個瞧得出他每一招到底是攻是守，這路太極劍法只是大大小小、正反斜直各種各樣的圓圈。要說招數(shù)，就這一招，可就這一招，卻永遠出沒，變化無窮。結(jié)果大家都知道，方東白直接被“按到地上摩擦”，最后斷了一條胳膊。

為什么只有張無忌能學(xué)會？主要是兩個點，第一點就是他悟性好，張三豐傳他的是“劍意”而不是“劍招”，也就是“畫圈”。第二個就是他內(nèi)功高，這個時候他已經(jīng)九陽神功，包括乾坤大挪移，這些都大成了，他才能拎著木劍上場，在任何一個圓圈當中把對手的劍招帶偏，甚至可以去把控。

我鋪墊了這么多終于可以代入今天的主題了。有朋友可能想說，尹哥你講這個干什么？當然是為了幫助大家理解這個“悟性好”，也就是這次O1模型的新算法，它叫做思維鏈，即CoT（Chain of Thought），它脫離了過去僅僅以語言為核心的模式，且開始走向分步、分類的邏輯思考。而這個“內(nèi)功高”則是我們一直強調(diào)的在AI當中很重要的大算力，通過不斷地疊加高性能的GPU，讓算力支持算法涌現(xiàn)出智能，這也再一次給所謂暴力出奇跡的標度律（Scaling Law）帶來希望。

當然帶來驚喜的這個大模型并不是大家之前猜的GPT-5，而是以Orion（獵戶座）命名，推出一個全新的O系列，其中的“1”有把計數(shù)器重置為1的寓意，代表從頭再來。這個模型一經(jīng)發(fā)布便引發(fā)了全球的關(guān)注，其核心是這個東西居然開始會推理了。比如多位用戶以中國今年的高考數(shù)學(xué)題測試，經(jīng)過十幾秒到幾十秒的思考，它竟然能達到140分以上的成績。這還是以它暫時不支持圖片為前提，有些問題還沒法輸入。要知道很多人終其一生也未必能把（高考數(shù)學(xué)）卷子答到140分以上，數(shù)學(xué)不會就是不會了，不是時間問題。換言之，通用人工智能可能真的呼之欲出了。

有一本著名的心理學(xué)著作叫《思考，快與慢》，很多人看過，核心議題是別讓直覺左右你的人生。如果說O1對比以前的GPT系列，最大的區(qū)別就在這里。什么叫思考的快與慢？它講的是人類的“快、慢”兩種思維模型，比如沖動性消費就是快思維模型，在情緒、激素的慫恿下人們可能會購買大量不必要的物品，而真正的高手都是慢思維模型，在做任何重要決策的時候會更理性。包括他們會強化自我意識、放慢決策過程，多角度思考，管理情緒，咨詢他人意見，還會定期回顧和學(xué)習(xí)。如果說在以前GPT更接近于快思考模式，問它什么，懂不懂都瞎回答一通，不信大家試一試。比如說“你看看Strawberry到底有幾個'r’？”。我們可以對比一下用GPT到O1它們的區(qū)別是什么。這次的O1明顯學(xué)會了慢思考模式，你問一個問題，它可能需要數(shù)十秒，甚至幾分鐘。然而一開口它就是對的，至少比大部分甚至是絕大部分人類正確。想一想這個能力在解決復(fù)雜科學(xué)問題上會帶來何等的顛覆？

所以這次的升級是一次范式（paradigm）升級，而不是簡單的模式（model）轉(zhuǎn)化。它是怎么做到的？就在于前面提到的，它是“劍意”，主要有四個方面。第一個，就是采用大規(guī)模的自我對弈強化學(xué)習(xí)（Self-play RL）設(shè)置獎懲機制，類似當年AlphaGo戰(zhàn)勝人類圍棋棋手的方式，讓模型左右互搏、自行解決問題。第二個，就是內(nèi)置思維鏈（CoT），看到問題不著急，先分解再推導(dǎo)，還能把推理過程外化，使得它的決策過程更為透明，便于理解和驗證。這就類似于剛才講到的張三豐，既教給你劍法，又在實戰(zhàn)中檢查你的使用。第三個，引入推理標記，用于輔助模型在對話環(huán)境中進行深層思考。第四個，使用專門的訓(xùn)練數(shù)據(jù)集，包含了大量復(fù)雜問題和對應(yīng)的解題步驟，從而不斷提升推理能力。這種新的訓(xùn)練方法，使得模型出現(xiàn)說瞎話的可能性大幅度降低了。

說實話，過去人們普遍認為只有人類才能深度思考并探索科學(xué)，但這次AI證明了它們似乎也能做到，這是O1的一小步，卻是AI覺醒的一大步，超越常規(guī)意義上的博士，步入慢思考的智能新紀元或許就在眼前。而這個所謂的“慢”，也會隨著算力、算法和計算載體（如量子計算、類腦計算）的更新而不斷提速。畢竟我們的大腦設(shè)定就在這了，但AI的上限遠未觸及。

Google的首席研究員Ray說：“通用人工智能（AGI）五年內(nèi)會來?！倍鳲penAI首席執(zhí)行官Sam Altman則發(fā)表了一篇名為“智能時代”的長文博客，暗指超級人工智能（ASI），也就是比人類聰明得多的人工智能或許就在幾年內(nèi)能夠成為現(xiàn)實。

聊到這，讓我先倒吸一口涼氣，然后總結(jié)一下，那就是：帶著“鏈式思考”能力的O1模型或許就像古希臘神話中的普羅米修斯將火種帶給了人類，只不過這一次火種是以算法和代碼的形式。大潮之勢不可逆，屏幕前的各位覺得應(yīng)該怎么應(yīng)對？是被硅基替代，還是碳硅結(jié)合面對嶄新的挑戰(zhàn)？哪些職業(yè)或行業(yè)會首先被顛覆掉呢？歡迎留言分享。