【生成AI】Wan2.2とFramePack
サーバー引っ越しで手間取ったりして久しぶりの更新になりますが、これまた久しぶりの話題で…。
リニューアル前にやっていたAIが銃を描けない問題は、25年夏になっても、解決はしていません。銃を知らない人間からみれば銃だなと納得するものですら、StableDiffusion1.5~XL系では出力できず、Flux1で漸く出力できるようになりました。Flux1にとってかわる勢いのQwenImageでも状況は変わっていません。自動車や電化製品などと同じで、パターンの学習のみの生成AIでは個々の実在する工業製品の差異は表現できないということです。
以前の内容を繰り返すスペースはないので、簡単におさらいすると、画像生成AIではまともな銃が出力できません。オンラインサービス系ではエロと同じく銃関連はフィルターに引っかかって拒否されるので、ローカル実行するしかなく、銃の写真をInpaintなどでなんとか合成していく手法です。
AdobeのFireflyとPhotoshopのようにレタッチと生成が同時に行えるのが理想ですが、Fireflyは銃どころか弾薬すら描画拒否してきます。今期待の星はFlux.Kontextなんですが、これローカルのくせにフィルターあるんですよ…。
25年になってにわかに現実味を帯びてきたジャンルが「動画生成」です。やはりちゃんとした銃を撃たせるならテキストから生成するT2Vではなく、画像から生成するI2Vになります。今までCogVideoやSkyReelsなど様々な動画生成AIを試してきましたが、25年2月にWan2.1、5月にFramePack、7月にWan2.2と矢継ぎ早に破綻の少ない動画を生成できる環境が出てきました。そこで真っ先に気になる点は、やはりこれら動画生成AIが銃を描けるんか?ってところですね。
御託はさておき、とりあえず見てみましょう。下は以前ご紹介したP226E2を構えるAI美女の写真です。最初はFramePack、次がWan2.2(14B_Q5)です。プロンプトは同じ(「銃を構えた女性が2発撃つ」をgoogle翻訳にかけたもの)ですが、SEEDは揃えても意味がないのであくまで一例という感じです。※ここで上げる動画は全て出力後サイズ落とすために低画質で再エンコードしていますが、編集は行っていません。
Wanのほうが明らかにいいですよね。怪しいところは確かにありますが、これなら「ガチャ」でいいものが出せそうな気がしてきます。生成速度はほぼ同じで、どちらも4090だと1秒当たり1分くらいで出力します。
上の動画はそれぞれ同じプロンプトで左側がFramePack、右側がWan2.2で出力したものです。最初は銃が映ってない状態から銃を出して撃つという、銃そのものをAI側で描かせてみたものです。WanはM92Fぽい銃を出してきたので驚きました。次が「銃を持って歩き回る自撮り映像、ときおり周りを警戒して何か言う」というちょっと難しいプロンプトですが、FramePackは銃を動かしてくれたのでまともに銃が描けないことがよくわかります。どっちも歩き回るという動作は無視、FramePackは警戒せずにしゃべり続けてるし、Wanは警戒しすぎてしゃべっていない…。
概ねWan2.2のほうがいい出力になっているのでFramePackはお役御免かというと、難しいところがありまして…。まず人によりけりだと思うんですが、個人的に生成AIのインターフェースとして、ComfyUIって超わかりにくいツールだと思うんですよね。FramePackはWebUIでおなじみのGradioベースのUIがあるので、SDでWebUI使えれば何の問題もなく使えると思うんですよ。WanはEasyWanとか先人たちが不断の努力でなんとかとっつきやすいように整えてくれてはいるんですが、結局ComfyUIという非人道的なツールを使うことになり、気がめいります。また上の動画で鋭い人は気づいたと思うんですが、FramePackは標準30fpsで出力できますが、Wanは16fpsになります。RIFEとかで補完すればいい話ですが、ひと手間面倒ですよね。最大の違いはFramePackは120秒まで出力できるのにWanは10秒しか出力できない点です。たしかにFramePackで120秒出力すると最後のほうではいろいろ破綻しがちですが、30秒くらいまではたいてい大丈夫です。Wanは出力後に最終フレームの画像も自動で保存してくれるので、その最終フレームから次の10秒を生成して連結することは可能です。ただやってみればわかるんですが、前後の動きの繋がりが不自然になりがちです。また環境的にもWan2.2は14BモデルでVRAMが24GB以上必要で、量子化モデルでなんとか16GBでも動作可能、軽量版の5Bモデルだと12GB程度で動作するらしいですが、5BだとFramePackのほうがましな出力になります。FramePackは7Bだと言われていますが、6GBという画像生成も不可能なVRAM容量で安定動作するようです。あ、僕はこの通りリアルな銃が最優先なのでFramePackもアリなんですが、FramePackはアニメ系の生成がかなり苦手なので、その方面の用途にはWanしかないのかもしれません。