banner

ニュース

Aug 22, 2023

Meta がオープンソース AI オーディオ ツール AudioCraft をリリース

ベンジ・エドワーズ - 2023 年 8 月 2 日午後 8 時 56 分 UTC

Metaは水曜日、テキストプロンプトから音楽や音声を作成するための生成AIツールスイートであるAudioCraftをオープンソース化すると発表した。 このツールを使用すると、コンテンツ作成者は簡単なテキストの説明を入力して、複雑なオーディオ ランドスケープを生成したり、メロディーを作曲したり、仮想オーケストラ全体をシミュレートしたりすることもできます。

AudioCraft は 3 つのコア コンポーネントで構成されています。AudioGen は、さまざまなオーディオ エフェクトやサウンドスケープを生成するツールです。 MusicGen は、説明から音楽作品やメロディーを作成できます。 EnCodec はニューラル ネットワーク ベースのオーディオ圧縮コーデックです。

特に、11 月に初めて取り上げた EnCodec が最近改良され、「アーティファクトが少なく、より高品質な音楽生成」が可能になったと Meta 氏は述べています。 また、AudioGen は、犬の吠え声、車のクラクション、木の床の足音などのオーディオ効果音を作成できます。 また、MusicGen は、「キャッチーなメロディー、トロピカルなパーカッション、アップビートなリズムを備えた、ビーチに最適なポップ ダンス トラック」などの説明に基づいて、さまざまなジャンルの曲を一から作成できます。

Meta は、評価用にいくつかの音声サンプルを Web サイトに提供しています。 結果は最先端のラベルと一致しているように見えますが、プロが作成した商用オーディオエフェクトや音楽に代わるほど高品質ではないことは間違いありません。

メタ氏は、テキストと静止画を中心とした生成 AI モデルが多くの注目を集めている(そしてオンラインでの実験が比較的簡単である)一方で、生成オーディオ ツールの開発は遅れていると指摘しています。 「いくつかの取り組みはあるが、非常に複雑でオープンではないため、人々はすぐにそれを試すことができない」と彼らは書いている。 しかし彼らは、MITライセンスに基づくAudioCraftのリリースが、オーディオや音楽実験のためのアクセス可能なツールを提供することで、より広範なコミュニティに貢献することを期待している。

「モデルは研究目的で利用でき、テクノロジーに対する人々の理解を促進するために利用できます。研究者や実務者がアクセスできるようになり、初めて独自のデータセットを使用して独自のモデルをトレーニングし、最先端技術の進歩に貢献できるようになることを嬉しく思います」 」とメタは言った。

Meta は、AI を活用したオーディオおよび音楽ジェネレーターを実験する最初の企業ではありません。 最近の注目すべき試みとしては、OpenAI が 2020 年にジュークボックスをデビューさせ、Google が 1 月に MusicLM をデビューさせ、昨年 12 月には独立した研究チームが Stable Diffusion ベースを使用して Riffusion と呼ばれるテキストから音楽への生成プラットフォームを作成しました。

これらの生成オーディオ プロジェクトはどれも、画像合成モデルほど注目を集めていませんが、それは、Meta が Web サイトで次のように述べているように、開発プロセスがそれほど複雑ではないという意味ではありません。

あらゆる種類の高忠実度オーディオを生成するには、さまざまなスケールで複雑な信号とパターンをモデリングする必要があります。 音楽は、一連の音符から複数の楽器によるグローバルな音楽構造に至るまで、局所的で長距離のパターンで構成されているため、おそらく生成するのが最も難しいタイプのオーディオです。 AI による一貫した音楽の生成は、MIDI やピアノ ロールなどの記号表現の使用を通じて解決されることがよくあります。 しかし、これらのアプローチでは、音楽に見られる表現上のニュアンスや様式的要素を完全に把握することはできません。 最近の進歩では、自己監視型オーディオ表現学習と多数の階層型またはカスケード モデルを利用して音楽を生成し、生のオーディオを複雑なシステムに供給して、高品質のオーディオを生成しながら信号内の長距離構造を捕捉します。 しかし、私たちはこの分野でさらに多くのことができることを知っていました。

Stable Diffusion、DALL-E、Midjourneyなどの画像合成モデルの作成に使用された未公開で非倫理的な可能性のあるトレーニング素材をめぐる論争のさなか、MetaがMusicGenが「Metaが所有する、またはこのために特別にライセンスを取得した20,000時間の音楽」でトレーニングされたと述べていることは注目に値します。目的。" 表面的には、これは生成 AI の一部の批評家を喜ばせる、より倫理的な方向への動きのように見えます。

共有