世界一乱暴な画像生成AIの使い方ページはここです。


img2imgとは
Img2Img(Image-to-Image)は、Stable Diffusionを含むAI画像生成ツールにおいて、既存の画像を入力として新しい画像を生成する機能です。このプロセスは、入力画像に対してテキストプロンプトの指示に基づいた変更を加えることで、スタイルの変更、要素の追加または除去、画質の向上など、さまざまな目的で利用されます。
img2imgで画像を生成する
Stable Diffusion Web UIを開始
まず、stable-diffusion-webuiフォルダ内のwebui-user.batをダブルクリック
お使いのブラウザでStable Diffusion Web UIを開きます。

img2imgに変更

Stable Diffusion Web UIを開き、「img2img」タブに移動します。
プロンプト(prompt)記入

画像に加えたい変更や希望するスタイルを説明するプロンプトを入力します。このプロンプトは、AIが生成する画像の方向性を決定します。今回は言葉による変更を加えず、以下にしました。
a youngadult girl ,ottd
NegativePrompt欄には、前回ダウンロードしたEasyNegativeを使用します。
EasyNegative
画像のアップロード

画像アップロードエリアに、変更したい元の画像をドラッグ&ドロップ(クリックしてアップロード)します。

画像がセットされました。
画像の生成
早速 [ Generate ] で画像を生成しましょう。

被写体の立ち位置(レイアウト)、全体の色味、画像の雰囲気を似せてきましたね。
Denoising Strengthの調整
img2imgには様々なパラメーターがあり、結果を追い込むことが出来ます。今回は私が展示会用のイラストにも使用した元画像の情報を尊重した画作りの方法を説明します。

Denoising Strength
スライダーを使用して、元の画像からどれだけ離れるかをコントロールします。この値を下げることで、元の画像の特徴をより保持した画像が生成されます。例えば、0.3に設定します。
Denoising Strength:結果の確認

元画像を忠実に再現しながら、特に顔の部分は生成画像の得意な描き方で生成されました。
CFG Scaleの調整

CFG Scale
スライダーを使用して、プロンプトの影響をどれだけ強くするかを調整します。この値を上げることで、プロンプトに忠実な詳細な画像が生成されます。例えば、15に設定します。
CFG Scale:結果の確認

Denoising Strengthの影響を受けながら、顔以外の部分でも生成画像の得意な筆遣いが反映されるようになりました。

例えば、上記の設定でプロンプトに「印象派(Impressism
)」など、特定のアーティストのスタイルや異なるアートスタイルを追加することで、元画像からスタイルを変更する(Photoshopのフィルターのような)効果を得ることもできます。

写真ばかり学習したモデルがイラスト画像を描けないように、モデルによって得意不得意な分野があります。
このように生成された画像を確認し、希望に沿った結果が得られたかを評価します。必要に応じて、プロンプトや設定を調整して再度生成を試みていきます。
余談:動画にも応用できる
この機能を動画に応用することで、SNSなどで流行ったイラスト風のダンス動画などを作ることも可能です。
そして、もしあなたがアニメーションを制作していれば、お手元に連続した画があると思います。それらをimg2imgで再生成することで、アニメーションも作成できます。


内部的には一枚一枚生成しているので、カクカクしてしまいますが、これはこれでロトスコープの延長線上のアニメ技法として、今後市場にも流通する可能性を感じます。
ControlNetで動画も作れることを覚えておくと良いと思います。



最近はLumaAIのDreamMACHINEという動画生成AIが話題です。こちらも近日中に検証、解説する予定です。
今回のまとめ
いかがでしたか?画像をベースに画像を生成するimg2imgは文字で画像をコントロールするtxt2imgよりも直感的で運要素を排除することが出来ます。ゆえにイラストや3DCGを学ぶ人間にとっては、こちらのほうが制御しやすく使い勝手のよい機能だと考えます。皆さんもうまく使いこなして、思い通りのAI生成が出来るよう試行錯誤してみてください。