在斯坦福大學(xué)的一場(chǎng)特別訪談中,OpenAI首席執(zhí)行官山姆·奧特曼向一群大二學(xué)生透露了一個(gè)震撼消息:下一代人工智能架構(gòu)正在醞釀之中,其性能提升將不亞于當(dāng)年Transformer對(duì)LSTM的革命性突破。這一言論引發(fā)了科技界的廣泛關(guān)注,因?yàn)楫?dāng)前幾乎所有大型語(yǔ)言模型,包括ChatGPT和GPT-4,都建立在Transformer架構(gòu)之上。
奧特曼指出,Transformer架構(gòu)存在一個(gè)根本性缺陷:計(jì)算復(fù)雜度隨文本長(zhǎng)度呈平方級(jí)增長(zhǎng)。這意味著處理十倍長(zhǎng)度的文本需要一百倍的計(jì)算資源,導(dǎo)致訓(xùn)練和運(yùn)行高級(jí)模型的成本高昂。他透露,OpenAI正在探索利用現(xiàn)有強(qiáng)大模型來(lái)加速發(fā)現(xiàn)下一代架構(gòu),形成一種自我強(qiáng)化的研發(fā)循環(huán)——模型越先進(jìn),發(fā)現(xiàn)新架構(gòu)的概率越高,而新架構(gòu)又能進(jìn)一步提升模型性能。
回顧自己的科技生涯,奧特曼分享了多個(gè)關(guān)鍵決策時(shí)刻。2015年,當(dāng)深度學(xué)習(xí)規(guī)模擴(kuò)展的潛力逐漸顯現(xiàn)時(shí),他毅然創(chuàng)立了OpenAI,盡管當(dāng)時(shí)這一決定被多數(shù)行業(yè)專家視為異想天開。他回憶道,公司創(chuàng)立初期,團(tuán)隊(duì)成員擠在聯(lián)合創(chuàng)始人格雷格·布羅克曼的公寓里,在一塊臨時(shí)購(gòu)買的白板上草擬了最初的核心理念。這些當(dāng)時(shí)看似不切實(shí)際的想法,最終奠定了GPT系列模型的基礎(chǔ)。
奧特曼特別強(qiáng)調(diào)了GPT-2的重要意義,這款模型首次展現(xiàn)出了超越傳統(tǒng)計(jì)算機(jī)程序的能力,讓他確信深度學(xué)習(xí)規(guī)模擴(kuò)展的道路是正確的。盡管出于謹(jǐn)慎考慮,GPT-2的發(fā)布曾被推遲,但他認(rèn)為在人工智能能力躍升的關(guān)鍵節(jié)點(diǎn)采取保守態(tài)度是合理的。同時(shí),他也警告企業(yè)若不能快速擁抱AI技術(shù),將面臨被完全自動(dòng)化AI公司淘汰的風(fēng)險(xiǎn)。
在訪談中,奧特曼做出了多項(xiàng)大膽預(yù)測(cè):通用人工智能(AGI)可能在兩年內(nèi)成為現(xiàn)實(shí);編程智能體將成為下一個(gè)顛覆性應(yīng)用領(lǐng)域;未來(lái)將出現(xiàn)大量由極少數(shù)人創(chuàng)建的微型初創(chuàng)公司,其影響力可與當(dāng)今大型企業(yè)媲美;甚至不排除未來(lái)出現(xiàn)AI擔(dān)任首席執(zhí)行官的可能性。他同時(shí)安撫公眾不必過(guò)度擔(dān)憂,認(rèn)為人類的適應(yīng)能力遠(yuǎn)超想象,社會(huì)結(jié)構(gòu)不會(huì)因AGI出現(xiàn)而徹底崩潰。
針對(duì)OpenAI面臨的競(jìng)爭(zhēng),奧特曼表現(xiàn)出開放態(tài)度。他承認(rèn)谷歌等科技巨頭的失誤為OpenAI提供了發(fā)展空間,并預(yù)測(cè)未來(lái)必將出現(xiàn)超越OpenAI的更成功企業(yè)。關(guān)于公司高昂的運(yùn)營(yíng)成本,他解釋稱只要預(yù)期收益遠(yuǎn)超投入,資本市場(chǎng)會(huì)持續(xù)支持這種戰(zhàn)略投資。在硬件方面,OpenAI正積極研發(fā)定制芯片,但明確表示不會(huì)涉足數(shù)據(jù)中心建設(shè)業(yè)務(wù)。
這場(chǎng)訪談也揭示了"后Transformer時(shí)代"的激烈競(jìng)爭(zhēng)態(tài)勢(shì)。2023年底,Albert Gu和Tri Dao提出的Mamba架構(gòu)通過(guò)狀態(tài)空間模型(SSM)實(shí)現(xiàn)了線性時(shí)間復(fù)雜度,推理速度比Transformer快五倍。到2025年,英偉達(dá)已在新一代模型中大規(guī)模采用Mamba-Transformer混合架構(gòu),其他科技巨頭也紛紛跟進(jìn)。更激進(jìn)的創(chuàng)新如液態(tài)神經(jīng)網(wǎng)絡(luò),受線蟲神經(jīng)系統(tǒng)啟發(fā),用微分方程驅(qū)動(dòng)神經(jīng)元,在極小參數(shù)量下實(shí)現(xiàn)了驚人性能。
奧特曼的預(yù)言正在逐步成為現(xiàn)實(shí)。從LSTM到Transformer的每次架構(gòu)革新都帶來(lái)了數(shù)量級(jí)的性能提升,并催生了定義時(shí)代的技術(shù)公司。隨著"后Transformer"競(jìng)賽的升溫,下一個(gè)科技巨頭或許正如奧特曼所描述的,正在某個(gè)大學(xué)宿舍里對(duì)著白板構(gòu)思改變世界的創(chuàng)意,而他們手中多了一個(gè)前所未有的工具——高度發(fā)達(dá)的AI本身。















