Meta の新しい翻訳機は、1 つのモデルを使用して 100 の言語を話します。重要かつ非常に有望なオープンソースのイノベーション。
現在、最新の AI 翻訳手法は十分に進歩しており、約 6,500 の口頭および書面によるコミュニケーション システムで会話したり、それらを切り替えたりできるようになりました。問題は、これらのモデルのそれぞれが、テキストから音声、音声からテキスト、テキストからテキスト、または音声から音声の翻訳と変換という 1 つまたは 2 つのタスクしかうまく実行できないことが多いことです。実際、最終的には多数のモデルを重ねて作成することになります。汎用ツールを作成するとしてグーグル翻訳または言語サービスフェイスブック。
これには膨大なコンピューティング リソースが必要です。これが理由ですメタはすべてを実行できる単一のモデルを開発しました。 SeamlessM4T は、「音声とテキストを翻訳および転写する多言語、マルチタスクの基盤モデル」であると Meta のブログ投稿で読みました。音声からテキストへの変換およびテキストからテキストへの変換機能では、約 100 の言語に翻訳できます。 Voice-to-Voice と Text-to-Voice は、これらと同じ言語を入力としてサポートし、英語を含む 36 言語で出力できます。
ブログ投稿の中で、メタ研究チームは、SeamlessM4T が「英語、スペイン語、ドイツ語などの高リソース言語での高いパフォーマンスを維持しながら、私たちがサポートする低リソース言語でのパフォーマンスを大幅に向上させる」と述べています。 » Meta は、PyTorch に基づくマルチタスク UnitY モデル アーキテクチャから SeamlessM4T を構築しました。これにより、すでにさまざまなモーダル翻訳がネイティブで可能になり、自動音声認識も可能になります。オーディオ エンコードには BERT 2.0 システムを使用し、入力を分析用のトークンに分離し、HiFi-GAN ボコーダーを使用して音声応答を生成します。
重要かつ非常に有望なオープンソースのイノベーション
Meta はまた、SeamlessAlign と呼ばれる大規模な音声から音声および音声からテキストへの並列データセットを構築しました。によれば、同社は「443,000時間以上の音声を対応するテキストと自動的に位置合わせし、約29,000時間の音声間の位置合わせを作成する」ために、公開されているソースから「数百億の文」と「400万時間」の音声をかき集めたという。ブログ。システムの堅牢性を評価したところ、SeamlessM4T は背景ノイズとナレーター スタイルの変動に対してそれぞれ 37% と 48% 優れたパフォーマンスを発揮しました。
彼のこれまでの翻訳活動と同様に、ラマ2、Massively Multilingual Speech (MMS)、Universal Speech Translator (UST)、または野心的な No Language Left Behind (NLLB) プロジェクトである SeamlessM4T がオープンソースになりました。 「私たちは、SeamlessM4T がユニバーサル マルチタスク システムの作成を目指す AI コミュニティの探求における重要なイノベーションであると信じています」とチームは書いています。 「オープンサイエンスへのアプローチを維持し、研究者や開発者がこのテクノロジーを基盤に構築できるように、モデルを公開することを楽しみにしています。」 » SeamlessM4T を自分で操作することに興味がある場合は、次のサイトにアクセスしてください。GitHub でテンプレートをダウンロードする、トレーニング データとドキュメント。