FLUX.1-Krea [dev] - AI感のないリアルな画像生成
FLUX.1 Krea [dev]
FLUX.1 Krea Devモデルで素晴らしい画像を作成
生成された画像がここに表示されます
プロンプトを入力して生成をクリックして画像を作成
AI画像生成への革新的アプローチ
Black Forest LabsとKreaは、FLUX.1-Krea [dev]と呼ばれる新しいオープンソース画像生成モデルを共同でリリースしました。このモデルの目標は、ワックス状の肌、ぼやけた背景、過度に処理された照明などの典型的な"AI感"を避けた、高度にリアルな画像を生成することです。
ベンチマークスコアやハイパーリアリズムを追求するのではなく、FLUX.1-Krea [dev]は本物のディテール、自然なテクスチャ、美的完全性の保持に焦点を当てています。また、既存のFLUXエコシステムと完全に互換性があり、コントロールとリアリズムを求めるクリエイターにとって重要なリリースとなっています。
なぜこれが重要なのか
ほとんどのAI生成画像は、過度に完璧な肌、合成的な照明、深みの欠如、均一なスタイルなど、特定の認識可能な特徴を持つ傾向があります。このモデルは、シンプルだが強力な質問を投げかけることで、それに対抗しています:
AIに見えないようにAIを訓練したらどうなるか?
FLUX.1-Kreaは、このミッションを念頭に置いて構築されました。従来のベンチマーク駆動の最適化への依存を再考し、人間の視覚的好みと芸術的表現により大きな重点を置いています。
"AI感"の原因は何か?
モデルの背後にあるチームは、重要な問題を指摘しています:間違った指標への最適化です。ほとんどのモデルは、FID、CLIPスコア、LAION-Aestheticなどのベンチマークで優れるように調整されていますが、これらはしばしば特定の視覚的バイアス(より明るい画像、柔らかくなったディテール、一般的な構成)を促進します。
これらの指標は人間の美的好みを捉えていません。実際、最も広く使用されているデータセットの一部は、特に女性や照明条件の描写方法において、特定のスタイルに本質的に偏っています。これにより、人工的または均質に感じられる出力が生まれます。
トレーニング哲学
FLUX.1-Kreaの開発プロセスは、大規模言語モデルと同様に、事前トレーニングとポストトレーニングの2つの主要段階に分かれています。
1. 事前トレーニング
ここでの目標は幅広い露出です — モデルに幅広いスタイル、オブジェクト、テクスチャ、照明を吸収させることです。興味深いことに、チームは低品質または欠陥のある画像でのトレーニングが有用である可能性があることを強調しています。
その理由:モデルが何をすべきでないか(余分な指をレンダリングしたり、歪んだ顔をレンダリングしたりするなど)を理解するためには、まずそれらのエラーを見る必要があります。
2. ポストトレーニング
このフェーズでは、2つのステップを使用してモデルを特定の美的方向に洗練させます:
- 教師あり微調整(SFT):厳選された高品質画像のセットを使用してモデルを調整します。
- 人間のフィードバックによる強化学習(RLHF):視覚デザインを理解する実際の人々からの好みデータ。
重要な洞察
品質 > 数量
何百万枚もの画像は必要ありません。100万枚未満の厳選された例で、パフォーマンスを劇的に向上させるのに十分でした。
強い視点
すべての人を満足させようとするのではなく、意図的に特定の美的または視覚的スタイルに調整します。
"生の"モデルから始める
多くのオープンソースモデルは過度に訓練されています。FLUX.1-Kreaは、より柔軟性を持たせるためにクリーンな状態から始まります。
誰のためのものか?
クリエイティブ
プロジェクトのためにリアルで美的にバランスの取れた画像を求めている人。
デザイナー
現在のAIモデルがニーズに対して"プラスチック"すぎるか、様式化されすぎていると感じる人。
開発者
ベンチマークスコアよりも人間の魅力を優先する画像ワークフローを構築している人。