NVIDIA は、単純なテキスト命令から音声ファイルを生成できる革新的な新しい人工知能モデル、Fugatto を発表しました。
先生
- NVIDIA は、新しいサウンド生成 AI モデルである Fugatto を発表します。
- Fugattoはテキストコマンドから音声ファイルを作成・編集できます。
- このモデルは、音楽制作、言語教育、ゲーム開発に使用できます。
エヌビディアテクノロジーの世界的リーダーの 1 つである は、最近その新しい革新的なプロジェクトを発表しました。人工知能(AI)を彼は次のように説明しています。「音のためのスイスアーミーナイフ」。 Fugatto と呼ばれるこのテンプレートは、テキストの指示に応じて音声ファイルを生成または変更するように設計されています。
AI分野における大きな進歩
Fugatto モデルは世界中の AI 研究者のチームによって設計され、NVIDIA はその機能を強化したと述べています複数のアクセントと多言語。このプロジェクトの研究者の 1 人であり、NVIDIA の応用オーディオ研究責任者である Rafael Valle 氏は次のように述べています。「人間と同じように音を理解し、生成するモデルを作りたかったのです。」。
フガットの多彩な用途
NVIDIA は、Fugatto の実際の使用シナリオをいくつかリストしています。その中で:
- 音楽プロデューサーは、このテクノロジーを使用して曲のプロトタイプのアイデアを迅速に生成し、それを簡単に変更してさまざまなスタイル、声、楽器を試すことができます。
- 個人はこれを使用して、自分の選択した音声で言語学習ツールの教材を生成できます。
- の開発者ビデオゲームこれを使用して、プレイヤーの選択やアクションに基づいて、事前に記録されたアセットのバリエーションを作成できます。
豊富な機能を備えたAI「ふがっと」
研究チームは、Fugatto が事前トレーニングされていないタスクも、少し微調整することで実行できることも発見しました。たとえば、特定のアクセントを持つ怒りっぽい音声や、雷雨の際の鳥の鳴き声を生成するなど、個別にトレーニングされた命令を組み合わせることができます。 Fugatto は、風景を横切る暴風雨の音など、時間の経過とともに変化するサウンドを生成することもできます。
NVIDIA は、一般の人々が Fugatto にアクセスできるかどうかをまだ発表していません。テキストの説明から音声を作成できる生成 AI テクノロジーはこれが初めてではないことに注意することが重要です。実際、Meta は同様の機能を備えたオープンソース AI キットをすでにリリースしています。Googleが開発したMusicLM、テキストを音楽に変換する AI で、同社の AI Test Kitchen Web サイトからアクセスできます。