OpenAI近期發(fā)布了其最新的模型O1,使得AI突然發(fā)生了躍遷。我們可以這么理解:它從一個文字功底較好但不懂理科的八股文秀才,突然搖身一變成為善于思考和推理的理科學(xué)霸。這究竟是如何實現(xiàn)的?我得先給你講個故事。 在《倚天屠龍記》當中有這么一個段子,張三豐曾當眾傳授張無忌太極劍法,張無忌很快學(xué)會并用新學(xué)的太極劍法擊敗了一代劍術(shù)名家方東白。張三豐當時先是演示了一連串劍招,演示完畢后,張三豐問:“你記住了多少招?”張無忌沒直接回答,而是說:“我忘了一小半?!?/p> 張三豐說:“你再想一想?!睆垷o忌思索了一會后,張三豐又問,張無忌這次回答得更離譜:“我忘記了一大半?!边@時候,五散人當中的周顛不干了,說:“我們教主雖然天賦異稟,但是張真人你這個劍法太高深,只看一遍記不住、記不住,能不能再演示一遍?張三豐聽罷,又一次把太極劍法演示了一遍。這一次演示后,不光周顛看懵了,在場的包括楊逍、殷天正等都看不懂,因為這一次張三豐演示的劍招和上一次演示的完全不一樣。接著張三豐又問:“這次怎么樣?”張無忌回答:“我還有三招沒忘?!彪S即張無忌又思索了一會兒,突然兩眼冒出金光,臉上洋溢著喜不自禁的表情說:“太師父,我已經(jīng)把所有的劍招都忘了?!庇谑撬蠄隽耍M管之前幾乎沒用過劍,但這次帶著一把木劍,就和用劍名家“八臂神劍”方東白開始對決。 △ 《倚天屠龍記》電視劇中,張三豐正向張無忌演示太極劍法 張無忌用的太極劍法其實就一招——畫圈圈。原文怎么寫的?說方東白連換六七套劍法,縱橫變化,奇幻無方,張無忌卻始終持劍畫圓。旁人除張三豐外,沒一個瞧得出他每一招到底是攻是守,這路太極劍法只是大大小小、正反斜直各種各樣的圓圈。要說招數(shù),就這一招,可就這一招,卻永遠出沒,變化無窮。結(jié)果大家都知道,方東白直接被“按到地上摩擦”,最后斷了一條胳膊。 為什么只有張無忌能學(xué)會?主要是兩個點,第一點就是他悟性好,張三豐傳他的是“劍意”而不是“劍招”,也就是“畫圈”。第二個就是他內(nèi)功高,這個時候他已經(jīng)九陽神功,包括乾坤大挪移,這些都大成了,他才能拎著木劍上場,在任何一個圓圈當中把對手的劍招帶偏,甚至可以去把控。 我鋪墊了這么多終于可以代入今天的主題了。有朋友可能想說,尹哥你講這個干什么?當然是為了幫助大家理解這個“悟性好”,也就是這次O1模型的新算法,它叫做思維鏈,即CoT(Chain of Thought),它脫離了過去僅僅以語言為核心的模式,且開始走向分步、分類的邏輯思考。而這個“內(nèi)功高”則是我們一直強調(diào)的在AI當中很重要的大算力,通過不斷地疊加高性能的GPU,讓算力支持算法涌現(xiàn)出智能,這也再一次給所謂暴力出奇跡的標度律(Scaling Law)帶來希望。 當然帶來驚喜的這個大模型并不是大家之前猜的GPT-5,而是以Orion(獵戶座)命名,推出一個全新的O系列,其中的“1”有把計數(shù)器重置為1的寓意,代表從頭再來。這個模型一經(jīng)發(fā)布便引發(fā)了全球的關(guān)注,其核心是這個東西居然開始會推理了。比如多位用戶以中國今年的高考數(shù)學(xué)題測試,經(jīng)過十幾秒到幾十秒的思考,它竟然能達到140分以上的成績。這還是以它暫時不支持圖片為前提,有些問題還沒法輸入。要知道很多人終其一生也未必能把(高考數(shù)學(xué))卷子答到140分以上,數(shù)學(xué)不會就是不會了,不是時間問題。換言之,通用人工智能可能真的呼之欲出了。 有一本著名的心理學(xué)著作叫《思考,快與慢》,很多人看過,核心議題是別讓直覺左右你的人生。如果說O1對比以前的GPT系列,最大的區(qū)別就在這里。什么叫思考的快與慢?它講的是人類的“快、慢”兩種思維模型,比如沖動性消費就是快思維模型,在情緒、激素的慫恿下人們可能會購買大量不必要的物品,而真正的高手都是慢思維模型,在做任何重要決策的時候會更理性。包括他們會強化自我意識、放慢決策過程,多角度思考,管理情緒,咨詢他人意見,還會定期回顧和學(xué)習(xí)。如果說在以前GPT更接近于快思考模式,問它什么,懂不懂都瞎回答一通,不信大家試一試。比如說“你看看Strawberry到底有幾個'r’?”。我們可以對比一下用GPT到O1它們的區(qū)別是什么。這次的O1明顯學(xué)會了慢思考模式,你問一個問題,它可能需要數(shù)十秒,甚至幾分鐘。然而一開口它就是對的,至少比大部分甚至是絕大部分人類正確。想一想這個能力在解決復(fù)雜科學(xué)問題上會帶來何等的顛覆? 所以這次的升級是一次范式(paradigm)升級,而不是簡單的模式(model)轉(zhuǎn)化。它是怎么做到的?就在于前面提到的,它是“劍意”,主要有四個方面。第一個,就是采用大規(guī)模的自我對弈強化學(xué)習(xí)(Self-play RL)設(shè)置獎懲機制,類似當年AlphaGo戰(zhàn)勝人類圍棋棋手的方式,讓模型左右互搏、自行解決問題。第二個,就是內(nèi)置思維鏈(CoT),看到問題不著急,先分解再推導(dǎo),還能把推理過程外化,使得它的決策過程更為透明,便于理解和驗證。這就類似于剛才講到的張三豐,既教給你劍法,又在實戰(zhàn)中檢查你的使用。第三個,引入推理標記,用于輔助模型在對話環(huán)境中進行深層思考。第四個,使用專門的訓(xùn)練數(shù)據(jù)集,包含了大量復(fù)雜問題和對應(yīng)的解題步驟,從而不斷提升推理能力。這種新的訓(xùn)練方法,使得模型出現(xiàn)說瞎話的可能性大幅度降低了。 說實話,過去人們普遍認為只有人類才能深度思考并探索科學(xué),但這次AI證明了它們似乎也能做到,這是O1的一小步,卻是AI覺醒的一大步,超越常規(guī)意義上的博士,步入慢思考的智能新紀元或許就在眼前。而這個所謂的“慢”,也會隨著算力、算法和計算載體(如量子計算、類腦計算)的更新而不斷提速。畢竟我們的大腦設(shè)定就在這了,但AI的上限遠未觸及。 Google的首席研究員Ray說:“通用人工智能(AGI)五年內(nèi)會來?!倍鳲penAI首席執(zhí)行官Sam Altman則發(fā)表了一篇名為“智能時代”的長文博客,暗指超級人工智能(ASI),也就是比人類聰明得多的人工智能或許就在幾年內(nèi)能夠成為現(xiàn)實。 聊到這,讓我先倒吸一口涼氣,然后總結(jié)一下,那就是:帶著“鏈式思考”能力的O1模型或許就像古希臘神話中的普羅米修斯將火種帶給了人類,只不過這一次火種是以算法和代碼的形式。大潮之勢不可逆,屏幕前的各位覺得應(yīng)該怎么應(yīng)對?是被硅基替代,還是碳硅結(jié)合面對嶄新的挑戰(zhàn)?哪些職業(yè)或行業(yè)會首先被顛覆掉呢?歡迎留言分享。 |
|
來自: 碧海藍天kx32di > 《知識管理》