OpenAI は、DALL-E と似ていますが、3D モデル用のアルゴリズムである POINT-E を発表します。そして、その結果はすでに非常に印象的です。
OpenAI、のスタートアップ人工知能イーロン・マスクによって設立され、人気のある DALL-E テキストから画像へのジェネレーターを開発した同社は、新しい POINT-E アルゴリズム、テキストのガイダンスに基づいて 3D 点群を作成できます。 Google DreamFusion のような既存のシステムは通常、画像を生成するのに数時間と大量の計算能力を必要としますが、POINT-E に必要なのは GPU と 1 分の作業だけです。
3D モデリングは多くの業界で使用されており、アプリケーション。現代の大作映画の CGI 効果、ビデオゲーム、VR と AR、NASA のクレーター マッピング ミッション、Google のランドマーク保存プロジェクト、Meta のメタバースのビジョンはすべて 3D モデリングに依存しています。そうは言っても、オブジェクト生成とモバイル アプリケーションを自動化する NVIDIA の取り組みにもかかわらず、フォトリアリスティックな 3D 画像の作成には依然として非常にリソースと時間がかかります。リアリティキャプチャEpic Games スタジオから提供されており、iOS スマートフォンを持っている人なら誰でも現実世界のオブジェクトをスキャンして 3D モデルを作成できます。
テキストから画像へのシステムOpenAI DALL-E 2Craiyon、DeepAI、Prisma Lab Lensa、Hugging Face Stable Diffusion は急速に人気と悪名を獲得しましたが、近年激しい論争を巻き起こしました。 Text-to-3D は、これらのシステムの拡張です。同様のシステムとは異なり、POINT-E は「大規模な関連付け (テキスト、画像) を使用するため、多様で複雑な指示に従うことができますが、3D 画像からモデルへの変換は、より制限されたペア (画像、画像、画像) のデータベースでトレーニングされます。」 3D)」と、アレックス・ニコル率いる OpenAI 研究チームは技術文書で説明しました。 「単純なテキストから 3D オブジェクトを生成するには、まずテキストから画像へのモデルを使用して画像を取得し、次にこの 2D 画像から 3D 画像を取得します。これら 2 つの手順は数秒で完了でき、高価な最適化手順は必要ありません。 »
そしてその結果はすでに非常に印象的です
「猫がブリトーを食べる」のようなテキストを入力すると、POINT-E はまずブリトーを食べる猫の合成 2D ビューを生成します。次に、この画像を一連の拡散モデルに通して初期画像の 3D RGB 点群を作成し、最初に 1,024 個の点群モデルを生成し、次により詳細な 4,096 個の点群モデルを生成します。 「実際には、画像にはテキストの関連情報が含まれていると想定しており、テキスト内の点群を明示的に条件付けしていません」とチームは述べています。
これらの配信モデルはすべて「数百万」の 3D モデルでトレーニングされており、すべて標準化された形式に変換されています。 「私たちの方法は、この用途では最先端の技術に比べて効率が劣りますが、同じ技術に必要な時間のほんの一部でコンテンツを作成できます」とチームは認めています。 » POINT-E を自分で試してみたい場合は、OpenAI がこのコードを公開していることを知ってください。GitHub 上のオープンソース プロジェクト。