タイトル通り、Windows11でComfyUIを実行します。PCはStrix Halo(Ryzen AI Max+ 395)を積んだEVO-X2(128GBモデルで96GBをGPUに割付)を使用しました。AMD GPUsに対応したexperimentalなstandalone packageをComfyUI公式がリリースしているので、今回はこれを使います。 github.com
上のリンクにpackageのダウンロードリンク ComfyUI_windows_portable_amd.7zがあるので、ダウンロードして解凍してrun_amd_gpu.batを実行すると、PowerShellが立ち上がり、しばらくするとComfyUIがwebブラウザで起動します。ROCmのバージョンは6.4のようです。

左側のTempletesから様々なワークフローのテンプレートを利用できるので、SD3.5シンプルを選択して実行しました(別途、モデルのダウンロードと適切なフォルダへの配置が必要)。

初回実行時は、デフォルト設定で1024x1024解像度の画像生成に329秒かかりました。2回目もあまり変わらず314秒でした。遅い。。。
To see the GUI go to: http://127.0.0.1:8188
got prompt
Failed to validate prompt for output 9:
* CheckpointLoaderSimple 4:
- Value not in list: ckpt_name: 'sd3.5_large_fp8_scaled.safetensors' not in []
Output will be ignored
invalid prompt: {'type': 'prompt_outputs_failed_validation', 'message': 'Prompt outputs failed validation', 'details': '', 'extra_info': {}}
got prompt
Using scaled fp8: fp8 matrix mult: False, scale input: True
model weight dtype torch.float16, manual cast: None
model_type FLOW
Using split attention in VAE
Using split attention in VAE
VAE load device: cuda:0, offload device: cpu, dtype: torch.bfloat16
Using scaled fp8: fp8 matrix mult: False, scale input: False
Requested to load SD3ClipModel_
loaded completely 9.5367431640625e+25 6228.190093994141 True
CLIP/text encoder model load device: cuda:0, offload device: cpu, current: cuda:0, dtype: torch.float16
loaded diffusion model directly to GPU
Requested to load SD3
loaded completely 9.5367431640625e+25 7683.561706542969 True
100%|██████████████████████████████████████████████████████████████████████████████████| 20/20 [04:57<00:00, 14.85s/it]
Requested to load AutoencodingEngine
loaded completely 83290.92810546875 159.87335777282715 True
Prompt executed in 329.22 seconds

解像度を512x512にすると生成時間は66秒と早くなりましたが、やはり品質も低下した気がします。ちょっと残念。タスクマネージャーをみるとGPUは使用されているので、意図した動作はしているのですが、まだまだですね。今後、ROCmの最適化もどんどん進むことを期待します。
