AI Solo Builder

ホーム/ニュース

📰 ニュース2026年2月15日・5分で読める

Google Gemini 3 Deep Think: ARC-AGI-2で84.6%達成

Googleが科学・研究向け推論モード「Gemini 3 Deep Think」を大幅アップデート。ARC-AGI-2で84.6%、Codeforces Legendary Grandmaster相当を達成。

概要

Googleが「Gemini 3 Deep Think」のメジャーアップデートを発表した。科学・研究・エンジニアリング向けの特化推論モードで、複数のベンチマークで記録的なスコアを達成している。

出典: Google AI Blog — 2026年2月12日

詳細

ベンチマーク結果

ベンチマーク	スコア	補足
ARC-AGI-2	84.6%	人間平均60%、従来AI 20%以下
Humanity's Last Exam	48.4%	ツールなし
Codeforces	Elo 3,455	Legendary Grandmaster
国際科学オリンピック	金メダルレベル	物理/化学/数学筆記
CMT-Benchmark	50.5%	理論物理学

特にARC-AGI-2の84.6%は、ARC Prize Foundationが検証済み。人間の平均を大幅に上回る結果となった。

技術的特徴

科学者・研究者との共同開発により、以下の能力が強化された：

不完全なデータへの対応 — 実世界の研究データを扱える
複雑な問題への推論 — 単純解がない問題に取り組める
実践的応用 — 手描きスケッチから3Dプリント可能ファイルへの変換など

提供形態

Google AI Ultraサブスクライバー: Geminiアプリで利用可能
開発者向け: Gemini APIで早期アクセスプログラム開始

ポイント

GPT-5.2、Claude Opus 4.6を上回るベンチマーク結果
科学・エンジニアリング向けに特化した推論モード
APIアクセスにより開発者も活用可能

ソロビルダーへの示唆

Gemini 3 Deep Thinkは、特に技術的に複雑な問題を扱うソロビルダーに価値がある。アルゴリズム設計、システムアーキテクチャの検討、技術的な意思決定支援などで活用できる。

ただし、これは「汎用アシスタント」ではなく「専門的推論モード」として位置づけられている。日常的なコーディング作業には従来のモデルの方が適している場合もある。

APIの早期アクセスに申し込むことで、自分のプロジェクトでの有用性を検証できる。

NVA評価

軸	スコア	理由
Newsworthiness	5/5	複数ベンチマークで記録更新
Value	4/5	技術的課題の推論に有用
Actionability	4/5	APIアクセス開始
Credibility	5/5	Google公式発表、第三者検証あり
Timeliness	4/5	直近発表
合計	22/25	Tier A

← トップページに戻る