関連推奨
GPT 5.5がAIバグチャレンジで優勝、DeepSeekがコストパフォーマンス最高を獲得
セキュリティ研究者Kasra Rahjerdiが、脆弱性を含む書籍レビューアプリを構築し、主要な大規模言語モデルのセキュリティ推論能力をテスト。Googleモバイルバックエンドサービスの認証情報を意図的に露出させ、モデルに解凍とデータベースアクセスを要求。2時間、予算10ドルの厳格な条件下でトップモデルのパフォーマンスを評価した。....
GPT-5.5が利用効率で優勝、DeepSeek V4 Proがコストパフォーマンスの王座を獲得!大規模言語モデルのサイバーセキュリティ攻防テスト結果が公開
大規模言語モデルはサイバーセキュリティ分野における推論能力に厳しいテストを受けています。セキュリティ研究者であるKasra Rahjerdi氏は、コアな脆弱性を含む図書レビューAPKを構築し、主流の大規模言語モデルを模擬ハッキングテストしました。このテストでは、各モデルがセキュリティ推論と脆弱性の利用において実際にどの程度の性能を持っているかを明らかにしています。テストは2時間の制限時間、1回あたり予算が10ドルで行われ、複雑な論理的チャレンジにおける各モデルの実際のパフォーマンスが明確に示されています。
誰が本物の牛なのか?新版のパブリッククラウド大規模モデルTokenサービスのパフォーマンスモニタリングプラットフォームが近日リリース予定
国内の大規模言語モデル導入が加速し、パブリッククラウドの基盤性能評価が業界の焦点に。6月16日、「高品質トークンサービス検討会」が開催され、新版「パブリッククラウド大規模言語モデルトークンサービス性能監視プラットフォーム」が正式稼働し、2026年6月の性能監視結果も同時公開される。....
悪意ある開発者によるClaudeの使用によるマルウェアパッケージ:670を越える汚染されたnpmパッケージがオープンソースエコシステムのセキュリティを脅かす
悪意のある開発者がAnthropicのAIモデルClaudeを利用して悪質なコードを作成し、npmリポジトリに670以上の悪意スクリプトを含むパッケージを公開。パッケージ管理エコシステムが汚染され、大規模言語モデルがマルウェア自動開発に悪用されるリスクが浮き彫りとなり、サイバーセキュリティ業界に警鐘を鳴らしている。....
自分の名前さえ正しく綴れない?グーグルのAI検索が頻繁にトラブルを引き起こし、ユーザーが一斉にアンインストールを始めた
Googleは「AI Overview」検索機能をアップグレードし、従来の検索エンジンを対話型に変えようとしたが、大きな失敗に直面。ユーザーテストで、AIが「poop」の「r」の数を誤ったり、「journalism」を「journadism」と誤記したり、親会社名「Google」のスペルを間違えるなど、基本的な文字処理の欠陥が露呈し、広く疑問視されている。....
