GLM-5.1 発表：単独で動作できる知能モデル 8時間連続作業可能

最新リリースされたGLM-5.1では、このオープンソースモデルがその優れた知能レベルを示しており、8時間にわたるタスクにおいて独立して作業でき、複雑なエンジニアリングプロジェクトを完了できます。以前のモデルが短時間のインタラクションに限られていたのに対し、GLM-5.1はコード能力と長距離タスク実行において顕著な向上を遂げています。

このモデルは世界中のオープンソースモデルの中で優れた性能を発揮しており、複数のコード評価基準で優れた成績を収めています。SWE-Bench Proの基準テストでは、GLM-5.1は高難度のエンジニアリングバグを正確に特定し修正でき、GPT-5.4やClaude Opus4.6などの既存のトップモデルを上回りました。これは、専門的なソフトウェア開発分野における強力な能力を示しています。

GLM-5.1の作業方法は驚くべきものです。夜間に完全なLinuxデスクトップシステムを構築し、8時間かけて1200ステップ以上の作業を行い、すでに20分目には初期成果を提示しました。最終的に提供されたシステムは機能が完全で、4人の開発者の1週間分の作業量に相当します。さらに、ベクトルデータベースの最適化やリアルな機械学習ワークロードでの自己進化能力においても優れたパフォーマンスを示し、AIがエンジニアリング分野で持つ潜在力を示しています。

このモデルの最大の特徴は、自分自身を評価・最適化できる点です。GLM-5.1は複雑なタスクに直面した際に、問題を識別・解決するだけでなく、戦略を主動的に調整して最適な結果を得ようとします。このような能力は、AIが実際の応用において新たな方向性を提供します。

GLM-5.1のリリースは新しい技術時代の始まりを示しており、開発者は指示を与えるだけで、長時間にわたって効率よく作業を行うことが期待できます。

GitHub:https://github.com/zai-org/GLM-5
Hugging Face:https://huggingface.co/zai-org/GLM-5.1
ModelScope:https://modelscope.cn/models/ZhipuAI/GLM-5.1

重要なポイント:
🌟 GLM-5.1は8時間以内に複雑なタスクを独立して完了でき、コード能力が向上しています。
💻 複数のコード評価基準で優れた性能を発揮し、多くのトップモデルを上回っています。
🔧 自己評価と最適化能力を持ち、AIがエンジニアリング分野での広範な応用可能性を示しています。

グーグルがGemma4 E2Bアーキテクチャを発表、スマートフォンでローカルにAIを実行する技術に質的な進化

グーグルDeepMindはオープンソース大規模モデルGemma4を発表しました。パラメーター数は約300億にとどまりますが、「パラメーターあたりの知能密度」が顕著に向上し、1年半前のトップクラスの非開示モデルと同様の性能を発揮します。そのコアな突破点は、パラメーターのアンロードを可能にする「E2B（エーツービー）」アーキテクチャの導入であり、これはオープンソース大規模モデルの基盤アーキテクチャにおける重要なアップグレードを示しています。

AI詐欺防止の名場面！グーグルが偽電話検出機能を公開 AIディープフェイクによる詐欺対策

グーグルは、安卓システムに「偽電話検出」機能を導入し、増加するAIディープフェイク音声詐欺に対応する。この機能は、知人を装った電話詐欺を識別・ブロックすることを目的としており、不正な人物が技術を用いて発信元番号を改変し、信頼関係を偽造する新しい詐欺手段に対抗するため、ユーザーにシステムレベルの詐欺防止対策を提供する。

大規模モデルが本当に幻覚から抜け出す方法は？メタ認知が鍵となる可能性

医療や法務などの危険性が高い分野において、大規模モデルの「幻覚」問題（事実誤認の出力）が特に深刻です。業界では幻覚を防止する2つの主流的なアプローチがありましたが、それぞれに限界があります。データの拡大はすべての事実をカバーできず、防御メカニズムはAIが過度に慎重になる傾向があります。

財務データの大危機！ChatGPTシートプラグインに深刻なセキュリティの欠陥が発覚

AIオフィスの普及の中で、セキュリティ研究会社PromptArmorの報告により、「ChatGPT for Google Sheets」ブラウザ拡張に深刻な欠陥が明らかにされた。その核心は「間接的なプロンプトインジェクション」と呼ばれる攻撃であり、悪意のあるコマンドがアカウントをまたいでデータを盗むことができるという。これは職場の人々にデータセキュリティについて注意を促している。

ステップ3.7 Flash：エージェントの効率の新しい時代が本当に訪れました

本日、オープンソースモデルのステップ3.7 Flashが正式にリリースされ、Apache 2.0ライセンスで重みが公開されました。エージェント時代における効率性・信頼性・マルチモーダル実行などの主要な課題を直撃しています。複数のベンチマークテストで優れた成績を収めています：ClawEval-1.1では67.1点で1位、SimpleVQA Searchでは79.2点で1位、SWE-PROでは56.3点で2位、V* Pythonでは95.3点を記録し、エージェントタスクやコード生成においてその実力を示しています。