GitHub近日宣佈將從2026年4月24日起更新其代碼庫政策,計劃利用用戶交互數據訓練其AI模型。 此次數據採集範圍涵蓋Copilot Free、Pro及Pro+用戶,具體包含模型輸入輸出、代碼片段、上下文信息、倉庫結構及聊天交互記錄。
GitHub首席產品官Mario Rodriguez表示,引入交互數據旨在提升模型的代碼建議準確率與安全性,並稱微軟內部數據的預先測試已顯著提高了建議接受率。值得注意的是,該政策採取“預設加入”機制,受影響用戶需手動進入隱私設置關閉相關選項方可退出,這引發了開發者社區關於私有倉庫定義及數據確權的廣泛討論。

目前,受合同條款約束的Copilot Business、Enterprise用戶以及教育版用戶暫不受此變更影響。GitHub在說明中強調,此舉符合Anthropic、JetBrains及微軟等大廠通行的行業慣例。然而,將私有倉庫代碼納入訓練集實質上挑戰了傳統“私有”概念的邊界,即便GitHub聲稱其目的是優化開發工作流。
從行業視角看,隨着高質量公域代碼數據趨於枯竭,頭部AI廠商正加速轉向挖掘私有交互數據等“深層數據”以尋求模型性能紅利。這一政策轉變不僅標誌着GitHub從開源託管平臺向閉環AI訓練生態的進一步傾斜,也預示着AI開發者工具領域正進入數據合規與模型演進博弈的新階段。
