Googleは、既存の写真やイラストから様式化されたビジュアルを作成することを目的として、人工知能に基づく画像ジェネレータであるWhiskを発表した。
先生
- Whisk は、以下に基づいた画像ジェネレーターです。人工知能既存のビジュアルを新しい作品に変換します。
- このツールは、事前定義されたスタイルを備えたシンプルなインターフェイスを提供し、視覚的なアイデアを迅速に検討できます。
- Whisk のアドバンスト モードでは AI によって生成された記述が使用されますが、現時点ではその結果は限定的です。
シンプルでわかりやすい紹介文
ウィスクはプロジェクトですGoogle Labsこれにより、ユーザーは既存のイメージを開始点として使用してイメージを作成できます。このツールは、元の画像の正確なレプリカを作成することを目的とするのではなく、その「本質」を捉えることを目的としており、素早い視覚化や創造的なアイデアにより適しています。Whisk を開くと、カスタマイズ オプションがほとんどない最小限のインターフェイスがユーザーを迎えます。これにより、視覚的な探索に最適な、シンプルで高速かつ直観的なインターフェースという重要なことに集中できます。
創作を刺激する事前定義されたスタイル
このツールには、「ステッカー」、「エナメルピン」、「ぬいぐるみ」という 3 つの事前定義されたスタイルが用意されています。これらの選択は意図的に行われているように見え、シンプルで様式化された表現に最適な、よりシャープなビジュアルを提供します。これら 3 つのスタイルを使用すると、複雑な詳細を気にせずにコンセプトをすばやく視覚化できます。たとえば、「ウィルフォード ブリムリーのぬいぐるみ」の生成された画像は、Whisk が現在のフレームワークでどのように機能するかを完全に示しています。つまり、視覚的に迅速にレンダリングできますが、元の画像を正確に再現したものではありません。
より詳細な制御のための高度なエディター
Whisk には、ユーザーがゼロから開始し、主題、シーン、スタイルなどのカテゴリを選択し、テキストで詳細を調整できる「アドバンスト」モードも含まれています。ただし、このモードは現在のバージョンではまだ完全に満足のいく結果をもたらしていません。たとえば、ユーザーが特定のシーンの画像をリクエストすると、ツールはそのリクエストに漠然と関連しているように見えるが、予期しない詳細や矛盾した詳細を含む結果を生成することがあります。この遅れは、本番環境に対応したコンテンツをまだ生成していないという、このツールの限界を示しています。
強力だが限界のあるテクノロジー
Whisk は 2 つの AI モデルに基づいて動作します。グーグル:ジェミニ元の画像の詳細な説明を生成します。画像3、この記述に基づいて画像を生成するツールです。これは、生成されたイメージが元のイメージと大幅に異なる可能性がある理由を説明しています。グーグルツールがソース イメージの外観を正確に再現するだけでなく、そこからいくつかの重要な特性を導き出すことを指定します。たとえば、身長、体重、さらには肌の色が変化する可能性があり、一部のユーザーにとっては制限となる場合があります。現時点では、Whisk を利用できるのは次の場合のみです。米国, しかし、将来的には国際的に拡大する可能性があります。