マジレス希望

RTX4060Ti 16GB と RTX4070 12GB どちらが、生成AI 「stable di

締切済

質問者：SERAPH777
質問日時：2023/07/20 19:01
回答数：3件

RTX4060Ti 16GB と RTX4070 12GB
どちらが、生成AI 「stable diffusion」用として性能が上？

こんにちは。
新グラフィックボードRTX4060Ti16GBの発売を心待ちにしておりましたが、
コスパで比較するとRTX4070の方が良いという噂ですね。
メーカーはASUSで決めてます。
予算的には、あまり10万を大きく超えて欲しくないので、それで言うとRTX4070を選択する事になりそう。
でも、VRAMの16GBと12GBってRTX4060TiとRTX4070の性能差を埋めるくらい重要な差でしょうか？

使用用途は「stable diffusion」重視です。
RTX4060Ti16GBとRTX4070どちらが生成AI上で性能が上なのでしょうか。
教えてください。
よろしくお願いします。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (3件)

最新から表示
回答順に表示

No.3

回答者： Glory_777
回答日時：2023/07/20 21:06

今後を考えるとVRAM16Gは必須かなと思っています。

取り合えず熱く語らせていただきます。

以下は興味があればどうぞ。

遅いのは何とか我慢できますがメモリーオバーエラーが頻発するのはきついですね。ネットで少量化の記事があるので色々試しましたが、今後の応用を考えるとその程度では足りません。VRAMの増強は必須に思えました。

画像サイズとControlNetの制御数を減らしたりして省力化していますが色々試そうとするとダメですね。いずれこれらのノウハウを纏めてどこかに出そうとは思っていますが、AIの場合はちょっとしたことで画質が変わったりしますのでハードの制約によりサイズの制約があるのは非常に良くないです。

皆さんはプロンプトを工夫してぶん回してガチャしているのかな？　今の時点ではこのシンプルな方法が一番良質な絵を出しますね。とはいえ、サイズアップやControlNetでの制御をしませんと単なる一枚絵が出るだけで何れは陳腐化すると思えます。

「3日使えば、ネットに出ている美麗な絵を見ても驚かなくなる。
　もうその程度では満足できない。時代遅れの奴だと感じてなら
　ない・・・あれ？　凄いねこれ。AIが時代を変える」

動画に応用するとか色々な案も出ていますので、運に頼って使えそうな絵を探すというのはもう無理でしょう。第二のビットコイン見たいに捉えている人もいますが、私の所見ではそちらは今後無理だと思います。

ある程度狙いの絵を出して微修正をして別のコンテンツの素材として使う。恐らくそういう人が増えてきますし、それらを外注するという人も出てくると思います。新しい業種と捉えた時、そういう機転が利く人とそうでない人に分かれてくると思います。

「俺はこの人みたいな高解像度の絵を作れない。
　なんでなの？　プロンプト教えて；；」

と言う人が出てくると思います。プロンプトの影響力やその他の要素の影響力をちゃんと（経験則でも良いので）感覚で覚えていないとダメでしょう。Taggerがあるのでプロンプトで勝負している人は淘汰されますよ。生成画像を下絵にして自分である程度絵を描く。そしてそれを下絵にして生成AIに補完させるそれをさらに編集してという工程がデフォルトになって来ると思います。私は今まさにそうしており、そういう手順やノウハウを確立しようとしています。

StableDiffusionで驚いたのは回しているうちに画像が劣化してくるんですよね。過学習とかもありそうですが、同じ絵を二度と作れない（全て同じであれば出てきますけどね）と言うか、絵の画風が全く変わってしまう謎現象に苦しめられます。この謎を解かないと行けません（モデル毎に違ったり、乱数の初期値にも金鉱がありそう）。そしてやはり決まった手順で狙い通りの絵を出す様な再現手順が大事に思えます。

ぶん回すとか再現性が減る方でのノウハウは、良い初期値を探し出す程度に使用するのが良さそうです。

誰もが気が付く事ですが、プロンプト以外で画質や精度に強く影響するのが描画サイズですね。これは最終画像のアスペクト比が非常に重要です。画像サイズに問題があるとプロンプトの殆どを無視（プロンプトによりAIが想定した構図が出来上がるのでこれと整合しないアスペクト比はだめ）しますし、不可思議な形状の物体（人体であれば奇形）を量産します。これをネガティブ・プロンプトで防止しようとしても無駄。あんまり強調すると過学習になって画像が壊れます。

次に生成された画像を利用してプチ動画を作ろうとしますと結構ノウハウが必要です。現状では学習用に使った著作物について一定の見解を政府が出したようです（強い悪意や確信犯の場合は既存の法で裁く、インターネットから無作為に学習をした場合は容認の方向が強い）ので、今後は商用利用も含めて花開くと思います。という事は今の時点のノウハウは陳腐化するという事です。もっと狙い通りの絵を作り上げるノウハウが求められます。

そういう意味では（他の生成AIがどうなるか分かりませんが）Stable diffusionはクリエーター向けだと思います。というか一般の人が（少しの絵心で）クリエーターに成れるものだと思えますね。

例えばこれとGIMPなどを組み合わせてVtuber用のキャラクターを作れれば（Live2D等をつかう）など思いつきます。自分用、提供用問わずで新しい趣味または商売が出来ると思います。そこまでやるとした時、ガチャに頼るやり方ではNGなんですよね。結局、私も鑑賞用途以外では自分で描き直しています。

一番大きなポイントはVtuber用の画像の画像サイズが立ち絵で縦5,000ピクセルほどあることです。また下絵として使うのならば当たりをつける（キャンバスが広すぎるので大雑把に位置と大きさを決めていく）のに最適ですが、生成画像をそのモノを利用する事は凄く難しいです。AIはイラストとして1枚完成させようとする志向が強く（特にライティングは制御しづらい）ので余計な影が生じて再利用がし辛いですね。ControlNetを使って制約をかけたり、自分で下絵を作るなど工夫は必須であり、ここにセンスが無いとダメだと思いました。

結局のところ、

「使える絵をランダムで生成するなんて何の武器にもならない。
　今後はクリエイティブ作品の生成補助として使用するのが主
　流になると思える」

今の時点でも超有能なアシさんがいるような感じですね。手ごたえを感じています。

StableDiffusionだけで何でもやらせようとする方向は捨てて、他のツールも使って何に活かせるかをリサーチする。そしてそのための手順や作業を確立しておくことが武器になると思います。漫画家が行き成りこれを使ってアシ作業を代行させようとしても無理でしょう。しかし、それを想定して色々と使い倒している人ならばアシさんの代わりに成れると思いますよ。そういうコラボも今後は出てくるはずですし、漫画やアニメの原画作成の手法として求められると思います。

これらの先行きを考えた時、超巨大サイズの生成画像を作れる事と、その画像に制約を加えられる様にControlNetを多用できるハード環境があると、将来的に（いずれは拡張するとしても）持ちこたえると思います。

という事で生成スピードよりも生成画像サイズを重要視して投資をしてください。

以上、ご参考になれば。