最近、グーグルは、大型言語モデルを微調整する際に必要なトレーニングデータ量を大幅に削減することを目的とした新しいアクティブ学習スクリーニングプロセスを提案しました。実験の結果、この方法によりトレーニングデータ量が元の1万分の1にまで減少し、モデルと人間の専門家の判断の一致率は65%向上しました。実際の応用では、広告コンテンツ分類や金融データセキュリティ分析などの分野において、高精度なトレーニングデータの需要は常に高いですが、要件に合ったデータを抽出することは難しく、コストも非常に高額です。

グーグル (3)

図の説明:画像はAIによって生成され、画像ライセンス提供者Midjourney

この新手法は、ゼロショットまたは少量ショットの初期モデルから始まり、ユーザーがプロンプトを使って目標内容を定義します。例えば、「ある広告がクリック誘導であるか」を尋ねます。初期モデルは広告をクリック誘導または良質な広告としてマークし、大規模なラベル付きデータセットを生成します。しかし、初期データセットにはカテゴリの不均衡が深刻で、モデルの正確な識別能力が弱いことがあります。

この問題を解決するために、研究者はモデルがクリック誘導および良質な広告としてマークしたコンテンツをグループ化し、一部のグループ間に重複があることを発見しました。これは、モデルがこれらのコンテンツに対して誤って判断しやすいことを示しています。したがって、研究者はこれらの重複グループからサンプルペアを選んで、専門家に判断を依頼し、審査コストを制御し、さまざまな状況をカバーできるサンプルペアを優先的に選択します。これにより得られるサンプルは価値があり、さまざまな誤りが生じる可能性をカバーしています。

モデルの微調整中に、専門家が提供したラベリングは2つのグループに分けられ、1つはモデルの一致率を評価するために使用され、もう1つはモデルの微調整に使用されます。このプロセスは、モデルの性能が人間の専門家とほぼ同等になるまで繰り返されます。

グーグルの実験では、Gemini Nano-1およびNano-2という2つのモデルを使用し、2つの異なる複雑度を持つタスクでテストを行いました。テストでは、各タスクに約10万件のクラウドソーシングラベルデータが使用されましたが、それらのデータは著しく不均衡でした。その結果、専門家の判断の一致率は高く、クラウドソーシングラベルと専門家の判断の一致率は相対的に一般的でした。新しい方法により、32.5億パラメータのモデルは、低難易度のタスクで整合性が顕著に向上し、使用されたデータ量は250〜450件にまで減少し、元の10万件より大幅に減少しながらも良好な効果を得ることができました。

総じて、グーグルの新しい方法は、少量の高品質なデータと、専門家のラベリングの一致率が0.8を超えることを確保すれば、大型モデルがトレーニング時に優れたパフォーマンスを得られることを証明しています。

重要なポイント:  

📉 トレーニングデータ量を元の1万分の1にまで削減でき、モデルの精度を向上させることができます。  

🤝 新しい方法は専門家の判断とモデルの反復に依存しており、サンプルの品質を保証します。  

📊 実験の結果、少量の高品質なデータを使用することで、従来の大規模なデータの効果に達するか、それを超えることが可能です。