最新のフラックス大型モデル - ComfyUI
Midjourney と Stable Diffusion は、現在人気のある AI 画像生成ツールで、テキスト記述に基づいて高品質な画像を生成することができます。これらはすべて、深層学習技術に基づくテキストから画像を生成するモデルですが、それぞれ異なる大規模モデルに基づいています。
しかし、最近、前述の2つよりも強力で、生成される画像がよりリアルで、細部において現実世界に近いモデルが登場しました。それがFLUXです!
Fluxとは?
Flux AIは、Black Forest Labsによって開発された最新のテキスト生成画像モデルで、このチームはStable Diffusionから離れた元メンバーによって設立されました。Flux AIモデルは、その卓越した視覚品質、正確なプロンプトの遵守、多様なスタイル、そして複雑なシーン生成能力で知られています。Flux AIは、FLUX.1 [pro]、FLUX.1 [dev]、FLUX.1 [schnell]の3つのバージョンがあり、それぞれ異なる使用シーンやニーズに対応しています。
FLUX.1 Pro
商業用途向けに設計されたクローズドソースモデルで、最先端の画像生成性能を提供します。
FLUX.1 Dev
オープンソースのガイド付き蒸留モデルで、非商業用途に適しています。
FLUX.1 Schnell
ローカル開発および個人使用向けに設計された高速バージョンです。
Flux AIモデルは、革新的なハイブリッドアーキテクチャを採用しており、マルチモーダル処理能力と並列拡散メカニズムを持つTransformer技術を組み合わせ、最大120億個のパラメータに拡張されています。これらのモデルは、トレーニング方法として流れマッチング技術を採用しており、この方法は汎用性が高く、概念もシンプルで、特に拡散プロセスを含むさまざまな状況に適しています。
画像品質
- Flux: 他のプラグインなしで、高解像度で詳細な画像を生成する能力に優れ、特に複雑なシーンや人体解剖学において優れたパフォーマンスを発揮します。
- Midjourney: 芸術的スタイルと高品質な出力で知られており、特に芸術性とスタイルの多様性に優れています。
- Stable Diffusion: リアルな画像を生成でき、リアル感が求められるプロジェクトに適しています。
速度と効率
- Flux: 画像生成が高速で、特にschnellバージョンは迅速なプロトタイプ作成やデザインの反復に適しています。
- Midjourney: 速度については明記されていませんが、通常商業モデルはクラウドサーバー上で動作しており、待機時間が発生する可能性があります。
- Stable Diffusion: 生成速度は遅めですが、画像の最適化プロセスでより多くのコントロールが提供されます。
複雑なシーンの処理
- Flux: 先進的なアーキテクチャにより、複雑な構図の処理に優れています。特に文字に関しては、Fluxはテキスト付き画像を生成でき、プロンプトが正確であれば、ポスターデザインレベルの画像を直接出力することができます。
- Midjourney: 複雑なシーンを処理できますが、理想的な結果を得るには、場合によっては追加の反復が必要です。
- Stable Diffusion: 複雑なシーンの処理に制限がある可能性があります。
人体解剖学のレンダリング
- Flux: 人体解剖学のレンダリングに優れており、特に手の細部がより完全に再現されます。
- Midjourney: 特に言及されていませんが、通常は芸術的な人物画像を生成できます。
- Stable Diffusion: 人体特徴の正確な描写には課題があり、追加のプラグインや後処理が必要になることがあります。
柔軟性と統合
- Flux: 複数のバリエーションを提供し、異なる使用シーンやニーズに対応できます。
- Midjourney: 商業ツールとして、カスタマイズに一定の制限がある可能性があります。
- Stable Diffusion: オープンソースモデルで、豊富なカスタマイズと統合オプションが提供されます。
オープンソースと商業モデル
- Flux: オープンソースモデルを提供し、コミュニティの参加とイノベーションを奨励しています。
- Midjourney: 商業モデルで、専門的な画像生成サービスを提供しています。
- Stable Diffusion: オープンソースモデルで、活発なコミュニティによるサポートと継続的な改善があります。
特定のアプリケーション
- Flux: 高い詳細度と正確な複雑なシーンの表現が求められるプロジェクトに最適です。
- Midjourney: 芸術創作やデザインに適しており、特に芸術的なスタイルや創造的な表現が求められる分野で優れています。
- Stable Diffusion: 最終的な画像の制御が非常に重要なリアル感のある出力に適しています。
Fluxの強み
- より詳細で、効果的な画像生成
- 画像のテキストサポートが強化され、正確に出力される
- 人物の手部がリアルに再現され、ほとんどエラーがない
- 豊富なスタイルをサポートし、追加のモデル補助が不要
- ポジティブプロンプトだけで正確に画像が生成される
Fluxが他の2つよりも強力である理由は、そのトレーニングパラメータが前者のモデルよりも大きいからです。Stable Diffusion 3は最大8Bのトレーニングパラメータ(約80億)であるのに対し、Flux 1は最初から12B(120億)を超えており、単一のモデルサイズは23GBにも達します。このようにFluxの強力さは非常に実力があると言えるでしょう。
Fluxモデルの違い
注意: GGUFやNF4を使用する場合、追加のプラグインが必要です。
- GGUF ノード: ComfyUI-GGUF
- NF4 ノード: ComfyUI_bitsandbytes_NF4
Fluxの簡単な説明
簡単に説明すると、Fluxは負のプロンプトなしで、人間の手部や文字なども非常に良く再現されます。
Fluxは大きなモデルには強力なコンピュータが必要ですが、小さなモデルでも非常に優れた効果を得られ、普通の自媒体や企画案などには十分に適しています。
さらに、loraを追加するだけで、ComfyUIに慣れている場合、拡大して細部を増加させるノードを追加したり、ControlNetなどの高度なアプリケーションを使用することで、より良い効果を得ることができます。