📰 ニュース2026年2月15日5分で読める

Google Gemini 3 Deep Think: ARC-AGI-2で84.6%達成

Googleが科学・研究向け推論モード「Gemini 3 Deep Think」を大幅アップデート。ARC-AGI-2で84.6%、Codeforces Legendary Grandmaster相当を達成。

概要

Googleが「Gemini 3 Deep Think」のメジャーアップデートを発表した。科学・研究・エンジニアリング向けの特化推論モードで、複数のベンチマークで記録的なスコアを達成している。

出典: Google AI Blog — 2026年2月12日

詳細

ベンチマーク結果

ベンチマーク スコア 補足
ARC-AGI-2 84.6% 人間平均60%、従来AI 20%以下
Humanity's Last Exam 48.4% ツールなし
Codeforces Elo 3,455 Legendary Grandmaster
国際科学オリンピック 金メダルレベル 物理/化学/数学筆記
CMT-Benchmark 50.5% 理論物理学

特にARC-AGI-2の84.6%は、ARC Prize Foundationが検証済み。人間の平均を大幅に上回る結果となった。

技術的特徴

科学者・研究者との共同開発により、以下の能力が強化された:

  • 不完全なデータへの対応 — 実世界の研究データを扱える
  • 複雑な問題への推論 — 単純解がない問題に取り組める
  • 実践的応用 — 手描きスケッチから3Dプリント可能ファイルへの変換など

提供形態

  • Google AI Ultraサブスクライバー: Geminiアプリで利用可能
  • 開発者向け: Gemini APIで早期アクセスプログラム開始

ポイント

  • GPT-5.2、Claude Opus 4.6を上回るベンチマーク結果
  • 科学・エンジニアリング向けに特化した推論モード
  • APIアクセスにより開発者も活用可能

ソロビルダーへの示唆

Gemini 3 Deep Thinkは、特に技術的に複雑な問題を扱うソロビルダーに価値がある。アルゴリズム設計、システムアーキテクチャの検討、技術的な意思決定支援などで活用できる。

ただし、これは「汎用アシスタント」ではなく「専門的推論モード」として位置づけられている。日常的なコーディング作業には従来のモデルの方が適している場合もある。

APIの早期アクセスに申し込むことで、自分のプロジェクトでの有用性を検証できる。

NVA評価

スコア 理由
Newsworthiness 5/5 複数ベンチマークで記録更新
Value 4/5 技術的課題の推論に有用
Actionability 4/5 APIアクセス開始
Credibility 5/5 Google公式発表、第三者検証あり
Timeliness 4/5 直近発表
合計 22/25 Tier A