前回の記事では、Radeon RX 9070 XT環境にて、WindowsネイティブでComfyUI (ROCm 7.1) を動作させる手順を解説した。
今回はその続きとして、「ROCmのバージョンを変えることで、どれくらい生成速度が変わるのか?」を検証していく。 比較対象は、安定版の6.4、今回導入した7.1、そして開発者向けナイトリービルドである7.11の3種類だ。
これからRadeonで画像生成環境を構築する人や、ドライバのアップデートを迷っている人の参考になれば幸いだ。
環境
以下に共通の環境を示す。
| 項目 | スペック/バージョン |
|---|---|
| GPU | Radeon RX 9070 XT 16GB |
| CPU | Ryzen 9 7900X |
| RAM | DDR5 64GB |
| OS | Windows 11 24H2 |
| AMD Software | 25.20.01.17 |
| HIP SDK | 6.4.2 |
| ComfyUI | 0.7.0 |
比較するROCmのバージョンは以下の3つ。使用するバージョンによってPythonとPyTorchのバージョンも異なるため併記している。
- ROCm 6.4.4
- 枯れていて安定しているバージョン。
- Python: 3.12.0
- PyTorch: 2.7.0a0+git3f903c3
- ROCm 7.1.1
- 今回の本命。RX 9000系の性能を引き出すために最適化されているらしい。
- Python: 3.12.10
- PyTorch: 2.9.0+rocmsdk20251116
- ROCm 7.11 (Nightly)
- 公式プレビューの7.10より新しい、開発中のナイトリービルド。人柱覚悟のバージョンだが、さらなる高速化が期待される。
- Python: 3.13.11
- PyTorch: 2.11.0a0+rocm7.11.0a20251218
ベンチマーク条件
公平を期すため、以下のルールで計測を行った。
- バッチカウントで8回測定し、初回と最大値、最小値を除いた5回の平均値をとる。
- シード値は「1234567890」からインクリメント
- 以下の3つのモデルを比較
| モデル | モデル名 | 解像度 | サンプラー | ステップ | バッチサイズ |
|---|---|---|---|---|---|
| SD1.5 | v1-5-pruned-emaonly-fp16 | 512 x 512 | Euler | 20 | 8 |
| SDXL | juggernautXL_ragnarokBy | 1024 x 1024 | Euler | 30 | 1 |
| FLUX.1 | FLUX.1 [dev] | 1024 x 1024 | Euler | 20 | 1 |
※最新モデルとしてQwen-ImageやFLUX.2もあるが、現時点のRadeon環境では安定した動作確認が取れなかったため、今回の検証からは除外している。今後、対応状況が改善されれば追加検証したい。
ベンチマーク結果
SD1.5
まずは軽量なSD1.5の結果から。負荷をかけるためにバッチサイズを8に設定している(8枚同時生成)。

| ROCmバージョン | 生成時間 (秒) | 備考 |
| 6.4 | 15.57秒 | 基準 |
| 7.1 | 6.85秒 | 約2.3倍高速 |
| 7.11 | 6.75秒 | ほぼ誤差 |
結果は一目瞭然だ。6.4では8枚生成に15秒以上かかっていたが、7.1/7.11では半分以下の6秒台まで短縮された。 7.1と7.11の間に大きな差はないが、6.4を使っているユーザーは今すぐアップデートすべきだろう。
SDXL
次に、現在最も主流であるSDXLでの比較。多くのユーザーが気になっているのはここだろう。

| ROCmバージョン | 生成時間 (秒) | 備考 |
| 6.4 | 23.35秒 | 遅い |
| 7.1 | 8.72秒 | 約2.7倍高速 |
| 7.11 | 8.90秒 | ちょっとだけ遅い |
ここでもバージョン7系の圧倒的な強さが光る。6.4では1枚生成するのに23秒かかり「ちょっと待たされるな」という感覚だったが、バージョン7系では8秒台と約2.7倍も高速に生成できる。7.1と7.11を比較すると、誤差レベルで7.1の方が速い結果となった。
FLUX.1
最後に、VRAMと演算性能を限界まで食い尽くす最新モデル、FLUX.1の結果だ。

| バージョン | 生成時間 (秒) | 備考 |
| 6.4 | 188.94秒 | 3分以上 |
| 7.1 | 169.36秒 | 約10%高速 |
| 7.11 | 133.59秒 | さらに20%高速 |
ここで面白い結果が出た。SD1.5やSDXLでは差がつかなかった「7.1」と「7.11」の間で、明確な差がついている。6.4と比較すると、7.11は55秒以上も短縮されており、体感でも「お、終わった?」と分かるレベルで速い。開発版である7.11は、高負荷時のメモリ管理やFP8演算周りの最適化がさらに進んでいる可能性が高い。
考察とまとめ
- ROCm 6.4は過去の遺物
- どのモデルに置いても、7系と比べて2~3倍近く遅い。RX 9070 XTの性能を全く活かせていないため、特別な理由がない限り使用は推奨しない。
- 常用なら「ROCm 7.1」がベスト
- 安定版でありながら、SD1.5やSDXLで爆発的な速度向上を見せた。普段使いならこれで間違いない。
- FLUX.1を使うならROCm 7.11の導入価値あり
- FLUX.1においては、ナイトリービルドの7.11が頭一つ抜けて速い。メインがFLUX.1のユーザーなら、人柱覚悟で7.11を入れる価値は十分にある。
結論として、Radeon RX 9070 XTユーザーは、迷わず「ROCm7.1」を入れるべきだ。これまで「Radeonは画像生成(やAI処理)が苦手」と言われてきたが、かなり改善されてきている。
導入手順については前回の記事で解説しているので、まだの人はぜひ挑戦してみてほしい。



コメント