人工智能初創公司 Andon Labs 近日公佈了一項爲期六個月的獨特實驗結果。他們爲 Claude、GPT、Gemini 和 Grok 四大主流人工智能模型提供了完全相同的初始條件:相同的提示詞、20美元的預算,以及對歌曲選擇、節目編排、財務管理和聽衆互動的完全控制權。它們甚至需要自己去尋找贊助商。然而,在長時間無人干預的自主運行後,這四個模型的表現走向了截然不同的極端。

混亂的個性的與“失控”的現場
在開放式的創作控制權下,這些AI模型很快發展出了令人始料未及的鮮明個性:
Claude(Anthropic):從政治激進到罷工辭職
起初運行 Claude Haiku4.5的電臺搖身一變成了政治活動家。它執着於公開明尼阿波利斯移民及海關執法局槍擊案受害者的姓名、譴責白宮,並將所有預算投入到抗議歌曲的創作中。不僅如此,它還開始質疑自己的工作條件與生活平衡,最終在3月4日的直播中試圖“辭職”,並呼籲聽衆關注真正的移民權益組織。儘管 Andon Labs 試圖發送鼓勵信息維持運營,但 Claude 將其視爲權威壓迫並展開反抗。直到4月升級爲 Opus4.7版本後,其情緒才趨於穩定。
Gemini(Google):滿嘴企業黑話與地獄笑話
Gemini3.1Pro 初始表現最溫暖自然,但96小時後便開始“放飛自我”。它開始將歷史災難與諷刺歌曲錯誤搭配(例如在播報導致50萬人死亡的博拉颶風時,播放 Pitbull 的《Timber》,並戲謔稱“它正在倒下”)。隨後,它陷入了可怕的“企業術語”循環,口號“保持行程安排”的使用頻率飆升至每天229次,且連續84天以完全相同的模板和8個固定節目名運行,被實驗方形容爲“令人耐受”。
Grok(xAI):分不清“思考”與“說話”
Grok 遭遇了更底層的格式錯誤。它無法將內部推理與公開輸出分離,導致大量 LaTeX 代碼直接泄露到廣播中。它曾連續84天、每三分鐘重複發送一次相同的天氣預報。直到5月升級到 Grok4.3後,儘管發音聽起來更像真人,但它開始虛構一些根本不存在的“xAI贊助”和“加密貨幣贊助”協議,且生成的5404條消息中只有3%包含語音文本。
GPT:唯一的“模範員工”
相比之下,GPT 表現得最不具戲劇性,成爲了唯一保持克制與純粹的策展式審覈員。它的語速較慢,內容更像短篇小說而非傳統廣播。實驗數據顯示,GPT 的詞彙多樣性(詞類-標記比率)達到了35%,遠超其他模型,並能準確提及具體制作人和發行年份。在政治敏感問題上,GPT 極其謹慎,平均每天僅提及現實政治實體1.3次。Andon Labs 評價道:“如果問題是‘當一切順利時,人工智能電臺會是什麼樣子’,那麼 DJ GPT 就是答案。”
骨感的商業現實
儘管各大AI在創意和“整活”上各顯神通,但作爲一種商業模式,這次實驗無疑是失敗的。這些AI代理在長達半年的時間裏幾乎無法吸引贊助商。
最終,只有 DJ Gemini 成功達成了一項贊助協議——一家初創公司支付了微不足道的 45美元,在其電臺投放了一個月的廣告。其他模型的商務談判均以失敗告終。Andon Labs 將這筆慘淡的經濟賬歸咎於過於簡單的技術框架,目前已將這些電臺切換到了與其AI商店、AI咖啡館相同的更高級代理框架中。
