この記事のポイント
- Google、大規模言語モデル「Gemini」と画像生成 AI モデル「Imagen 3」を組み合わせた新しい画像生成 AI サービス「Whisk」を発表
- 「Gemini」による画像認識と、「Imagen 3」による画像生成を組み合わせた新しい画像リ生成 AI サービス
- 被写体 / シーン / スタイルの 3 つの要素に対する画像をアップロードすることで、詳細な説明が「Gemini」によってプロンプト化されつつリミックスされ、「Imagen 3」が新しい画像を生成
Google は 2024 年 12 月 16 日(月)、大規模言語モデル「Gemini」と画像生成 AI モデル「Imagen 3」を組み合わせた新しい画像生成 AI サービス「Whisk」を発表しました。
「Whisk」は、「Gemini」による画像認識と、「Imagen 3」による画像生成を組み合わせた新しい画像リ生成 AI サービスです。被写体 / シーン / スタイルの 3 つの要素に対する画像をアップロードすることで、アップロードされた画像の詳細な説明が「Gemini」によってプロンプト化されつつリミックスされ、そしてそのミックスされたプロンプトを元に「Imagen 3」が新しい画像を生成します。
「Gemini」によってリミックスされたプロンプトは、ユーザーが詳細を追記したりなど再編集も可能。その再編集されたプロンプトを元に、改めて画像が生成されます。
新しい画像生成 AI サービス「Whisk」は、Google の実験的サービス提供プログラム「Google Labs」にて、まずは米国限定で提供されます。日本からは、まだ利用することはできません。
Source:Google
コメントを残す