Googleが2024年1月に動画生成AI「Lumiere」を発表しました。
Lumiereは、テキスト入力を基に動画を自動生成する技術です。高度な自然言語処理技術と映像生成技術を組み合わせることで、テキストの内容を深く理解し、それに合った映像をリアルタイムで生成することができます。
既存の動画生成モデルではキーフレームを生成してから合成するのに対し、Lumiereで使われる時空間U-Netアーキテクチャでは、多数のフレームを組み合わせずに1つのなめらかなプロセスで動画全体を生成します。これにより、動画全体を一度に生成するため、高品質な動画の生成が可能です。
テキストや画像を入力して動画を生成できるのはもちろん、動画の一部分を指定して別の動画に置き換えたり、写真の一部分だけを動かしたりといった操作もできるようになっています。
Lumiereの機能
Lumiereは、以下の機能を備えています。
Text to Video(文字プロンプトから動画を生成)
テキストのプロンプトをもとに動画を作成できます。
サンプルのYouTubeでは、火星の宇宙飛行士が基地周辺を迂回するシーンや、おもしろいサングラスをかけて車を運転する犬のシーンなど、リアルで自然な映像が生成されています。
Image to Video(画像を映像に変換)
画像を映像に変換する機能です。
例えば、静止画像から動画を生成できます。
STYLIZED GENERATION(画像のテイストを参照して動画生成)
アップロードした画像と同じテイストで動画を作成できます。
神秘的なキノコのイラストをもとに、幻想的な雰囲気を保ちつつ馬が走る動画を生成することができます。
Video Stylization(人物や物体のテイストを変える)
人物や物体のテイストを変えて動画を生成できます。例えば、木製のブロック風やペーパーアート風、レゴ風、お花みたいにといったスタイルを選択できます。
Video Inpainting(動画の欠損を補完する機能)
動画が欠けている部分にAIが自動で追加してくれる機能です。
CINEMAGRAPHS(画像の一部分を動画化)
選択した部分を動画化する機能です。
VideoPoetとLumiereの違い
Googleが開発した動画生成AIには「VideoPoet」と「Lumiere」という二つの異なるプラットフォームがあります。これらの技術は、どちらもテキストからビジュアルコンテンツを生成する点で共通していますが、アプローチや使用される技術、目的においていくつかの違いがあります。
生成されるコンテンツがどのように創り出されるか
VideoPoet:既存の画像や動画クリップを組み合わせて、新しいビデオを生成することで、テキストに基づいた物語や説明をビジュアル化することができます。
Lumiere:テキストの内容から直接、動画を生成します。画像やシーンの生成から動きのある要素まで、すべてがテキストから創り出されます。
それぞれのプラットフォームに適している使用シーン
VideoPoet:物語やプレゼンテーション、教育資料など、特定のテキストに基づいたビデオコンテンツの生成に適しています。
Lumiere:よりクリエイティブで実験的なビデオ制作、特に具体的な画像や動画がない抽象的な概念やアイデアをビジュアル化したい場合に適しています。
生成されるコンテンツのカスタマイズ
VideoPoet:ユーザーはビデオのスタイルや色合い、音楽などをカスタマイズできます。
Lumiere:生成されるビデオはテキストの内容に強く依存しており、カスタマイズの選択肢はVideoPoetよりも限られる可能性がありますが、生成される映像のユニークさとクリエイティブさはLumiereの強みです。
Lumiereの可能性
Lumiereは、テキストベースの入力から直接動画を生成する能力により、新しくオリジナリティのある動画を生成することが可能です。特に、以下のような分野での応用が期待されます。
クリエイティブ産業
広告やアート作品、映画のプレビジュアライゼーションなど、独創的なビジュアルが求められる分野での利用が考えられます。
コンテンツマーケティング
企業が独自のブランドストーリーや製品の特徴を表現するためのビデオコンテンツ制作に活用できます。
まとめ
Lumiereは現時点で開発段階のため一般公開されておらず、Lumiere公式サイトで生成例が紹介されている段階です。
VideoPoetとLumiereは、どちらもGoogleが提供する革新的な動画生成AIですが、その機能と使用目的には明確な違いがあります。
VideoPoetは既存の素材を活用してテキストベースの動画を制作するのに対し、Lumiereはテキストから直接動画を生成することで、よりクリエイティブで実験的なビジュアルコンテンツの創出を可能にします。テキストベースで生成できるということは、ユーザー側にもより適切にイメージをテキスト化できる能力が求められるということでもありますね。
今後、ますますクリエイティブな表現の新たな可能性を広げ、多くの分野で新しいビジュアルコンテンツの制作手法として注目されるでしょう。
Lumiere 公式サイト:https://lumiere-video.github.io/#section_text_to_video