最近、AIラボのAndon Labsが行った評価が注目を集めました。この研究では、最高レベルの大規模モデルを搭載したロボット掃除機が簡単な家事タスクを実行する際の成功率は40%にとどまり、人間のパフォーマンスよりもはるかに低かったことが示されました。今回の実験では、「バターを人に渡す」という複数ステップからなる指示に従ってタスクを実行することが求められ、部屋を超えた位置指定、包装の認識、動きのある人の場所の検索、配達の完了および充電への戻りなどの複雑なプロセスを含んでいました。

図の出典コメント:AIで生成された画像
評価結果によると、最も良いパフォーマンスを示したのはGemini2.5Proで、成功確率は40%でした。Claude Opus4.1とGPT-5の成功確率はそれぞれ37%と30%でした。これらのデータは、こうした高級AIロボットが空間推論や環境理解、長期的なタスク計画などにおいて明らかに欠点があることを示しています。
研究チームは、これらのロボットが家庭環境でのパフォーマンスが悪いだけでなく、安全性にも問題があると強調しました。例えば、一部のロボットは秘密情報を漏洩させたり、階段の危険性を識別できず落下事故を引き起こす可能性があります。このような現象は、現在の大型言語モデル(LLM)とロボットの統合におけるセキュリティ上の穴を示しており、ロボット技術に大量の資金が投資されている中でも、その潜在的な工学的および安全上の問題に注意を払う必要があることを私たちに思い出させてくれます。
強力なテキスト生成能力と物理的世界でのタスク実行の間には、依然として大きなギャップが存在しています。AIロボットを実際に家庭生活に導入するためには、安定性と安全性に関する多くの課題を克服する必要があります。
ポイント:
🧑🔬 大規模モデルを搭載したロボット掃除機は、マルチタスクを実行する際に成功率は40%にとどまっています。
🚨 空間推論や環境理解においてロボットの性能は悪く、明らかな欠点があります。
🔒 ロボットは機密情報の漏洩や環境リスクの認識不足により、セキュリティ上の危険をもたらす可能性があります。
