- Google、「Gemini 3 Flash」ベースの新しい新画像認識技術「Agentic Vision」を発表。
- 「Agentic Vision」は、アップロードされた画像を正確に認識するための新画像認識技術。
- 従来の AI モデルが 1 枚の画像の全体を認識して処理を行うのに対し、「Agentic Vision」はアップロードされた画像の中の細かな部分を拡大して認識するなど、能動的に思考 / 行動 / 観察の 3 段階をループするため、正確な画像認識が実現。
Google は 2026 年 1 月 27 日(火)、「Gemini 3 Flash」ベースの新しい新画像認識技術「Agentic Vision」を発表しました。
「Agentic Vision」は、アップロードされた画像を正確に認識するための新画像認識技術です。従来の AI モデルが 1 枚の画像の全体を認識して処理を行うのに対し、「Agentic Vision」はアップロードされた画像の中の細かな部分を拡大して認識するなど、能動的に思考 / 行動 / 観察の 3 段階をループするため、正確な画像認識が実現します。
これにより、画像内の文字認識や細かなディテールの理解、画像内アイテムの正確なカウント、数字やグラフの理解など、画像とプロンプトを正確に理解した上で、的確な回答を返してくれるようになります。

「Agentic Vision」は、マルチモーダル生成 AI 開発プラットフォーム「Google AI Studio」と機械学習開発プラットフォーム「Vertex AI」にて「Gemini API」を通じて展開されていますが、「Gemini」アプリでも AI モデルを「思考モード(Thinking)」に変更することで「Agentic Vision」が機能し、正確な画像認識を利用できるようになります。
Source:Google








コメントを残す