古いグラフィックボードを搭載したパソコンで「Stable Diffusion web UI」を使って画像生成してみた

なんだか AI 流行ってますよね。

そんな中で今色々な方面で注目を集めいているのが、テキストから画像を生成する AI。

調べてみたところ、無料で自分のパソコンに環境を構築し、使うことができるようなので試してみることに。

今回環境を構築したのは、オープンソースの画像生成 AI「Stable Diffusion（ステーブルディフュージョン）」。

使ったのは、Stable Diffusion の環境構築を手軽に行える Windows 向けツール「Stable Diffusion web UI」。

今回は構築方法を紹介する記事ではないため、環境構築手順については触れません。

興味がある方は下記サイトさんなんかを参考にしてみてください。
※最初に掲載したサイトより詳細にインストール方法を紹介しているサイトがあったため差し替えました

Stable Diffusion web UI の日本語化は下記サイトが参考になります。

試したパソコンのスペックは下記のような感じ。

CPU：Core i7-8700K
メモリ：DDR4 48GB
グラフィックボード：GeForce GTX 1050 Ti（VRAM 4GB）

なお、Stable Diffusion が安定して動かせるグラフィックボードの最低ラインは

NVIDEA の GeForce RTX 20XX シリーズ以上で VRAM を 8GB 以上搭載しているモデル

とのことで、「DreamBooth」などで学習をさせようとすると VRAM は 10GB 以上必要になるようです。

自分のグラフィックボードは完全に最低ライン未満ですが、そんな最低ライン未満なグラボでも VRAM 消費量を抑えるオプションを指定することで動かすことはできます。

また、VRAM 消費量を抑えた環境が構築できる「Optimized Stable Diffusion」というツールもあります。

呪文が難しい

どんな画像を出力するのかを指定する「呪文」。

正式には「プロンプト」なのですが、なかなか思った通りの指示を伝えるのは難しいです。

これに加えて「ネガティブプロンプト」という画像に含みたくない要素も指定でき、この辺まで考慮するとかなり大変です。

また、モデルごとの特性（学習内容）により呪文の指定内容も異なることがあるので、何度も試行錯誤を繰り返さなくてはいけません。

モデルによって利用条件が異なるので注意が必要です。

例えば、該当モデルを使用して出力した画像を、作者のクレジット表記なしに外部公開することを許可していないような、少し利用条件が厳しめなものもあったりします。

出力した画像を販売する際はもちろんですが、SNS に載せるだけであってもしっかりと利用条件の確認が必要です。

古いグラフィックボードだと出力に結構な時間がかかります。

自分のパソコンで出力を試してみたところ、1 枚の出力に 6～7 分程度かかりました。

モデルによっては 2 枚出力しようとすると落ちてしまうものもあり、オプションで無理矢理動かしているだけあって正直かなり不安定です。

出力に時間がかかるのもそうですが、出力した画像の内容にも影響を及ぼすようで、サンプルと同じ呪文を入力してもクオリティが全く異なります。

サンプルが精密な 3D だとするなら、自分のパソコンが出力するのは淡いタッチの油絵といった感じで、全く質感が異なります。

Stable Diffusion におすすめなグラフィックボード調べてみたところ、GeForce RTX 3060 の VRAM を 12GB 搭載したモデルが低コストでおすすめとのこと。

なかなか出力が面白いので、新しいグラフィックボードを買おうか検討中。

どうせグラフィックボードを買い替えるならパソコンを丸っと買い換えたい。

ただ、次の CPU は Core i9 にすると前から決めていたため、グラフィックボードにもお金をかけるとなると予算オーバー。

とりあえずグラフィックボードだけ買うか、１０年ぐらい使うつもりでパソコンを買い替えるか。

非常に悩ましいところです。