【Radeon】Stable Diffusion生成速度ベンチマーク【ROCm 6.4 / 7.1 / 7.11】

※当サイトはアフィリエイト広告(Amazonアソシエイト含む)を利用しています。

プログラミング

前回の記事では、Radeon RX 9070 XT環境にて、WindowsネイティブでComfyUI (ROCm 7.1) を動作させる手順を解説した。

今回はその続きとして、「ROCmのバージョンを変えることで、どれくらい生成速度が変わるのか?」を検証していく。 比較対象は、安定版の6.4、今回導入した7.1、そして開発者向けナイトリービルドである7.11の3種類だ。

これからRadeonで画像生成環境を構築する人や、ドライバのアップデートを迷っている人の参考になれば幸いだ。

環境

以下に共通の環境を示す。

項目スペック/バージョン
GPURadeon RX 9070 XT 16GB
CPURyzen 9 7900X
RAMDDR5 64GB
OSWindows 11 24H2
AMD Software25.20.01.17
HIP SDK6.4.2
ComfyUI0.7.0

比較するROCmのバージョンは以下の3つ。使用するバージョンによってPythonとPyTorchのバージョンも異なるため併記している。

  1. ROCm 6.4.4
    • 枯れていて安定しているバージョン。
    • Python: 3.12.0
    • PyTorch: 2.7.0a0+git3f903c3
  2. ROCm 7.1.1
    • 今回の本命。RX 9000系の性能を引き出すために最適化されているらしい。
    • Python: 3.12.10
    • PyTorch: 2.9.0+rocmsdk20251116
  3. ROCm 7.11 (Nightly)
    • 公式プレビューの7.10より新しい、開発中のナイトリービルド。人柱覚悟のバージョンだが、さらなる高速化が期待される。
    • Python: 3.13.11
    • PyTorch: 2.11.0a0+rocm7.11.0a20251218

ベンチマーク条件

公平を期すため、以下のルールで計測を行った。

  • バッチカウントで8回測定し、初回と最大値、最小値を除いた5回の平均値をとる。
  • シード値は「1234567890」からインクリメント
  • 以下の3つのモデルを比較
モデルモデル名解像度サンプラーステップバッチサイズ
SD1.5v1-5-pruned-emaonly-fp16512 x 512Euler208
SDXLjuggernautXL_ragnarokBy1024 x 1024Euler301
FLUX.1FLUX.1 [dev]1024 x 1024Euler201

※最新モデルとしてQwen-ImageやFLUX.2もあるが、現時点のRadeon環境では安定した動作確認が取れなかったため、今回の検証からは除外している。今後、対応状況が改善されれば追加検証したい。

ベンチマーク結果

SD1.5

まずは軽量なSD1.5の結果から。負荷をかけるためにバッチサイズを8に設定している(8枚同時生成)。

ROCmバージョン生成時間 (秒)備考
6.415.57秒基準
7.16.85秒約2.3倍高速
7.116.75秒ほぼ誤差

結果は一目瞭然だ。6.4では8枚生成に15秒以上かかっていたが、7.1/7.11では半分以下の6秒台まで短縮された。 7.1と7.11の間に大きな差はないが、6.4を使っているユーザーは今すぐアップデートすべきだろう。

SDXL

次に、現在最も主流であるSDXLでの比較。多くのユーザーが気になっているのはここだろう。

ROCmバージョン生成時間 (秒)備考
6.423.35秒遅い
7.18.72秒約2.7倍高速
7.118.90秒ちょっとだけ遅い

ここでもバージョン7系の圧倒的な強さが光る。6.4では1枚生成するのに23秒かかり「ちょっと待たされるな」という感覚だったが、バージョン7系では8秒台と約2.7倍も高速に生成できる。7.1と7.11を比較すると、誤差レベルで7.1の方が速い結果となった。

FLUX.1

最後に、VRAMと演算性能を限界まで食い尽くす最新モデル、FLUX.1の結果だ。

バージョン生成時間 (秒)備考
6.4188.94秒3分以上
7.1169.36秒約10%高速
7.11133.59秒さらに20%高速

ここで面白い結果が出た。SD1.5やSDXLでは差がつかなかった「7.1」と「7.11」の間で、明確な差がついている。6.4と比較すると、7.11は55秒以上も短縮されており、体感でも「お、終わった?」と分かるレベルで速い。開発版である7.11は、高負荷時のメモリ管理やFP8演算周りの最適化がさらに進んでいる可能性が高い。

考察とまとめ

  1. ROCm 6.4は過去の遺物
    • どのモデルに置いても、7系と比べて2~3倍近く遅い。RX 9070 XTの性能を全く活かせていないため、特別な理由がない限り使用は推奨しない
  2. 常用なら「ROCm 7.1」がベスト
    • 安定版でありながら、SD1.5やSDXLで爆発的な速度向上を見せた。普段使いならこれで間違いない
  3. FLUX.1を使うならROCm 7.11の導入価値あり
    • FLUX.1においては、ナイトリービルドの7.11が頭一つ抜けて速い。メインがFLUX.1のユーザーなら、人柱覚悟で7.11を入れる価値は十分にある

結論として、Radeon RX 9070 XTユーザーは、迷わず「ROCm7.1」を入れるべきだ。これまで「Radeonは画像生成(やAI処理)が苦手」と言われてきたが、かなり改善されてきている。

導入手順については前回の記事で解説しているので、まだの人はぜひ挑戦してみてほしい。

参考資料

AMD ROCm documentation — ROCm Documentation
Start building for HPC and AI with the performance-first AMD ROCm software stack. Explore how-to guides and reference do...
AMD ROCm documentation — ROCm Documentation
Start building for HPC and AI with the performance-first AMD ROCm software stack. Explore how-to guides and reference do...
GitHub - ROCm/TheRock: The HIP Environment and ROCm Kit - A lightweight open source build system for HIP and ROCm
The HIP Environment and ROCm Kit - A lightweight open source build system for HIP and ROCm - ROCm/TheRock

コメント

タイトルとURLをコピーしました