智源研究院發佈了名爲 TACO 的代碼生成訓練集,旨在爲代碼生成模型提供更具挑戰性的訓練數據和評測基準。TACO 在數據規模、質量和評測方案上具有優勢,包括更大規模的訓練集和測試集,多樣化的解題答案,以及細粒度的標籤。實驗結果顯示,當前流行的代碼生成模型在 TACO 評測中與 GPT-4 存在顯著差異,說明該領域仍有提升空間。TACO 不僅是一個挑戰性的測試方法,還可用作改進模型性能的訓練數據,促進代碼生成領域的發展。