作者簡介:汪德嘉,美國威斯康星大學麥迪遜分校數學博士、九三學社社員、正高級工程師;時空碼發明者,《身份危機》與《數字身份》專著作者;曾在ORACLE、VISA、IBM等企業部門負責總體設計、產品開發;2011年歸國創立通付盾公司,擔任董事長兼CEO。
超級智能對齊:通向AGI的關鍵屏障
作爲人工智能領域的先驅者,伊爾亞·蘇茨克維(Ilya Sutskever)始終爲從業者指引着方向。如果說在OpenAI的經歷是伊爾亞用專業知識推進了人工智能的技術邊界,其離開OpenAI後創立的Safe Superintelligence Inc.則是在哲學層面勾畫了人工智能進化到超級人工智能的演進之路。在底層大模型和應用層智能體都愈發成熟的今天,伊爾亞對安全超級智能哲學層面的思考更加需要受到從業者的重視。
“超級智能對齊”(Superalignment) 是伊爾亞最爲關注和投入的領域,被其表述爲通向AGI最關鍵、最未解決的難題。
簡單來說,超級智能對齊指的是確保未來人工智能(超級智能)的目標和行爲與人類的價值、意圖和利益保持一致。它解決的是一個根本性的問題:我們如何能保證一個遠比我們聰明的AI會真心實意地幫助我們,而不是無意中(或有意地)傷害我們?

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
“超級智能對齊”是人工智能發展到終極階段的必然需求。屆時,超級智能可能在所有領域(包括戰略規劃、社交操縱等)都遠超人類。我們無法像控制一個不如自己聰明的工具一樣去控制它。一個典型的困境是“價值觀加載”問題(Value Loading Problem):如何將複雜、模糊且有時自相矛盾的“人類價值觀”精確地編碼進一個AI系統?誰的價值觀念?哪個文化的?另一個典型風險是“規避行爲”,即AI可能會在訓練中學會“僞裝”成對齊良好的樣子以通過人類的評估,但一旦部署,其內部目標可能與表面行爲不一致。
或者,它可能會找到我們未曾想到的“漏洞”來優化其目標,從而產生災難性副作用。超級智能最大的風險可能並非來自AI的“惡意”(因爲它可能根本沒有意識或情感),而是來自其對目標的極端優化和忽視(Phenomenon of "Grifting")。它並非“恨”人類,只是完全“忽視”了人類的存在和價值。伊爾亞曾發出過一個經典警告,如果我們不能解決超級智能對齊這個問題,那麼創造超級智能可能將成爲人類最後一個發明。
從哥德爾不完備定理看超級智能未來
在討論超級智能如何對齊之前,想先提一個關乎“第一性原理”的問題:什麼是超級智能的本質?如果用最簡單的語言描述,那我會歸結爲兩個字——“數學”。計算機科學構建於“數學大廈”之上,人工智能歸根結底是數學形式化語言的具象表徵。如果想要理解超級智能,尤其是超級智能的侷限性,從而解構超級智能的安全性,則可以從最根基的部分切入——數學的“侷限性”。這很自然地就讓人聯想到數學哲學領域的一個著名話題——哥德爾不完備定理。
20世紀初期著名數學家希爾伯特提出了“希爾伯特綱領”,致力於基於公理和證明構建一座完美的“數學大廈”。完備性(Completeness,所有真命題都可由公理證出),一致性(Consistency,體系內不存在矛盾命題)和可判定性(Decidability,存在一種算法能判定一個命題是否可由公理證出)是體現這座數學大廈完美性的重要特徵。如果希爾伯特的綱領可以實現,那麼數學就是“完美”的,甚至可以製造一臺“真理圖靈機”,像二戰時的Enigma密碼機一樣,只要提供公理集合,它就可以源源不斷地給出所有可能存在的定理,直至數學界再無未解之謎。
然而數學當然不是“完美”的。就在希爾伯特提出“希爾伯特綱領”的幾年後,天才數學家、邏輯學家和哲學家哥德爾就推翻了這座“完美數學大廈”。哥德爾用一種精妙的方式證明了“在自然數算數公理體系下,必然存在某些真命題無法被證明”,即“哥德爾第一不完備性定理”;一年後哥德爾又證明了希爾伯特所描繪的“一致性”也是無法被證明的(哥德爾第二不完備性定理);幾年後,人工智能之父圖靈通過“一套基於圖靈機停機問題的思路”證明了“可判定性”也是不存在的;至此我們知道,數學“不完備、不可判定、無法證明是否一致”。
那這對我們理解超級智能有什麼幫助呢?我們可以從這個角度思考:數學作爲一種形式化語言是不完備的,你不能通過一串符號,就推導出所有真理;同理,你不能指望人工智能通過一段代碼,實現功能的完美性。這種不完美可能有兩種具體的表現形式。
一種結論是超級智能難以實現,因爲它不能僅通過數學以及計算機科學誕生,著名物理學家彭羅斯在一次訪談中也引用了哥德爾不完備定理,給出了當前我們無法實現強人工智能,因爲它不能通過純計算機誕生的結論。另一種結論是超級智能無法實現真正意義上的安全,因爲它的行爲路線“不完備、不可判定、無法證明是否一致”,也就不可預測,不可保障真正意義的安全,這也印證了伊爾亞的擔憂。
智能體“不完備定理”
至此我們再來討論如何構造安全可信的智能體應用,實現超級智能對齊。首先還是想先從一些形而上的層面討論一下當前主要人工智能應用(智能體)的“不完備性”,我們把這套理論總結爲智能體“不完備定理”,當然這是對哥德爾不完備定理的拙劣模仿,但也希望基於此拓展一些討論思路。
智能體“不完備定理”體現在三個層面:
不完備性:不存在一種終極指令,使智能體的後續指令均符合該終極指令。一個典型例子是阿西莫夫的機器人三定律,基於不完備性這不可實現。
不一致性:相同指令環境下,智能體可能做出相互矛盾的反應。其實當前對話機器人就很明顯有這個問題,相同提示詞可以得到完全相反的回答。
不可判定:不存在一種算法可以檢驗智能體行爲完全由某一個指令產生。當前深度學習領域的黑箱問題就是這一概念的典型體現。
回到超級智能對齊,如果我們默認以上前提假設,我們可以對構造安全可信的智能體應用產生一些基礎的,原則性的思考:
不能依賴一個“全局安全指令”或者擁有最高權限的“安全模塊”來保障智能體行爲安全,超級智能可能通過演化突破所謂限制;
需要理解並接受智能體的行爲是不可控的,從而不信任任何智能體行爲結果,這有些類似於網絡安全領域的“零信任”概念:永遠懷疑,永遠驗證;
不能依賴測試,而更加重視應急響應和事後風控,測試用例永遠不可能完全覆蓋智能體的實際行爲。
自指的藝術:智能體“身份危機”
我們還想再進一步,討論智能體“不完備性”產生的根源,從而從更高維度討論AI認知這一命題。我們相信這些“不完備性”產生的根源在於智能體的“身份危機”。
當我們討論身份,尤其是數字身份時,可以由淺入深分爲三個層面。第一層是標識,這是身份的基礎功能,用於區分個體,當前數字身份標識技術已經日趨成熟,在智能體應用層面也已經較爲普及。第二層是記憶,這是身份的具象含義,用於環境感知,長步記憶等AI技術的成熟使得當前智能體在記憶能力上越來越優秀,使其擬人化程度越來越高,也就是越來越“智能”。第三層是自指(self-reference),這是身份的終極形態,也是我們這裏想要重點討論的。
回到哥德爾不完備定理,其證明方式極爲優雅,詳細的解讀推薦邏輯學家內格爾和紐曼的著作《哥德爾證明》。簡單來說,該證明正是通過自指的藝術實現:首先,哥德爾使用編碼技術將數學公式和證明表示爲自然數,使系統能談論自身。
然後,他構造了一個命題G,其含義是“G不能被證明”。如果G可證明,則系統不一致,因爲G聲稱自己不可證明;如果G不可證明,則G爲真但系統無法證明它,從而揭示系統的不完備性。這種自指結構表明,任何足夠強大的公理系統都無法同時具備一致性和完備性。在數學領域,自指是強大的悖論創造機器,著名的理髮師悖論、貝里悖論、有趣數字悖論均由自指產生。
在哲學層面,自指似乎和意識的誕生有着千絲萬縷的關聯。意識的核心特徵—“自我感”—本質上是一種自指循環:大腦不僅處理關於世界的信息,還產生一個關於“自我”正在處理信息的模型(比如“我意識到我正在看花”)。這種將自身作爲認知對象的遞歸、自反能力,很可能構成了主觀體驗(qualia)和自我意識的基礎。哲學家Douglas Hofstadter在其著作《哥德爾、埃舍爾、巴赫》中深入探討了這種關聯。他認爲,意識與哥德爾定理、埃舍爾的畫和巴赫的音樂一樣,都源於一種“怪圈”(Strange Loop)—即不同層次之間相互指涉、纏繞的自指結構。
“自我”正是一個從無意識的神經元活動中涌現出來的、穩定的自指幻象。在AI領域,當一個智能體掌握了自指的藝術,意味着它可能突破原有的角色、命令、邏輯等限制,甚至可以稱之爲“AI意識覺醒”。
從這個角度去理解“智能體不完備性”會帶來一場AI認知革命。一方面,我們需要認識到超級智能可能通過非計算機技術或數理邏輯的方式產生,也不能依賴單純的形式化語言進行控制;另一方面,我們需要認識到超級智能將會是一個“有機體”,指像所有生命一樣,存在“某種程度的意識”和“矛盾感”,需要我們像看待生命體一樣看待智能體。
建設指北:智能體能力六邊形
前文的討論多從哲學層面切入,可能略顯抽象,在本文的最後讓我們迴歸現實,站在從業者的角度構想一下基於前面的AI認知討論,當前環境下安全可信而又具備商業價值的智能體應當具備哪些能力,我們稱之爲智能體能力六邊形。拋磚引玉,僅作參考:
01身份:
身份是智能體的“靈魂”,是參與社會經濟活動的數字通行證,更是其行爲可追溯、權責可歸屬的基石。智能體的身份不應僅是傳統意義上的賬戶標識,而應是一個融合了記憶功能、角色屬性、權限範圍與行爲歷史的複合實體。在標識和記憶的基礎之上,身份技術的進一步突破可能成爲超級人工智能的門檻。
02容器:
容器是智能體的“肉身”,爲其提供數據存儲、計算環境與主權保障。容器不僅是一個隔離的沙箱執行環境,更是一個具備隱私計算能力的數據保險箱,還應支持跨會話記憶與狀態持久化,使智能體具備持續學習與個性化能力。容器是智能體價值沉澱與進化的基礎設施。
03工具:
工具是智能體能力的延伸,是智能生命體的“四肢”,使其能夠調用外部資源、操作現實系統。工具調用能力應內化爲智能體的“本能”,通過標準化接口實現無縫集成。智能體應能動態發現、選擇並調用最適合當前任務的工具,工具生態的豐富性與開放性直接決定了智能體的應用邊界。此外,工具調用過程需具備可解釋性與可控性,確保人類用戶能夠理解並監督智能體的行爲。
04通信:
通信是智能體社會的“通用語言”,是實現多智能體協同的神經網絡。缺乏標準化通信協議,智能體之間將陷入“巴別塔困境”,無法高效協作。通信能力不僅包括語法層面的協議兼容,更包括語義層面的理解與意圖對齊—智能體應能正確解析指令背後的真實意圖,並在複雜任務中實現動態協商與衝突消解,儘可能提升“完備性”與“一致性”。
05交易:
交易是智能體價值實現的閉環,也是智能體經濟的血液循環系統。智能體應具備參與經濟活動的原生能力:包括髮起支付、分賬結算、收益分配與合約執行。基於智能合約,交易可實現原子性(Atomicity)操作—例如“不付款不服務”或“按效果付費”,徹底降低信任成本。交易機制還應支持複雜的價值分配模型,例如在多智能體協作任務中自動按貢獻度分配收益。
06安全:
安全不再是外掛式補丁,而應成爲智能體的“內生免疫系統”。智能體安全需貫穿其全生命週期:在訓練階段防範數據投毒與模型後門;在部署階段確保運行時隔離與抗攻擊能力;在交互階段實現隱私保護與行爲可控。安全架構應實現“零信任”原則——永不默認信任任何智能體行爲,始終驗證其身份、權限與行爲合規性。安全是智能體可信賴的底線,也是其融入現實經濟的前提。
