
これは「Navigating Text-To-Image Customization: From LyCORIS Fine-Tuning to Model Evaluation」の要約日本語版です。
この論文は、テキスト→画像生成モデル(text to image、txt2img、特にStable Diffusion)の微調整のための「LyCORIS」というオープンソースライブラリを提案し、さらに微調整されたモデルの体系的評価のための包括的なフレームワークを提示しています。LyCORISはLoRA(Low-Rank Adaptation)をベースとしつつ、LoHa(Hadamard積を用いた低ランク適応)やLoKr(Kronecker積を用いた低ランク適応)など複数の新しい手法を実装しています。また、様々な微調整アルゴリズムとそのハイパーパラメータの影響を広範な実験を通じて評価しています。著者らの実験結果は、微調整のアプローチ選択の複雑さを明らかにし、概念忠実性、テキスト-画像の一致性、多様性、基本モデルの保存性など複数の評価基準間のトレードオフを示しています。
テキスト→画像生成モデルとカスタマイズの背景
近年、テキスト→画像生成モデルは急速に発展し、テキストプロンプトから高品質な画像を生成する能力で注目を集めています。特にStable Diffusionはオープンソースモデルとして先駆的存在となり、研究者からカジュアルユーザーまで幅広い層を惹きつけています12。
しかし、これらのモデルは高度にパーソナライズされた概念や新規概念の捕捉に制限があり、そのためモデルカスタマイズ技術への関心が高まっています。DreamBoothやTextual Inversionなどの取り組みはこの領域での先駆けとなり、少数の代表的な画像を通じて事前訓練されたモデルに新しい概念を組み込むことを可能にしました3。
しかし、これらのモデルの微調整に関する理解は限られています。データセット、画像タイプ、キャプション戦略の変動から、それぞれ独自のハイパーパラメータセットを持つ利用可能な手法の豊富さまで、タスクの複雑さがナビゲーションを困難にしています。研究者によって提案される新しい手法は大きな可能性を秘めていますが、必ずしも既存のエコシステムにシームレスに統合されるわけではなく、包括的なテストや広範な採用を妨げる可能性があります。
LyCORISライブラリの概要
LyCORISは「Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion」の略称で、Stable Diffusionの微調整のための多様な手法を提供するオープンソースライブラリです3。
設計と目的
LyCORISの主な目的は、ユーザーがStable Diffusionモデルの様々な微調整戦略を試すためのテストベッドとして機能することです。既存のエコシステムにシームレスに統合され、コマンドラインツールやグラフィカルインターフェースと互換性を持ち、ユーザーが簡単にライブラリに実装されたアルゴリズムを活用できるようになっています3。
LyCORISで実装されたほとんどのアルゴリズムでは、保存されたパラメータが自然に重み更新∆Wの再構築を可能にします。この設計は本質的な柔軟性をもたらします:トレーニングに使用されたものとは異なる基本モデルW’₀に重み更新をスケーリングして適用することができ、W’=W’₀+λ∆Wとして表現されます。さらに、重み更新は他の微調整モデルからのものと組み合わせたり、さらに圧縮したり、ControlNetなどの高度なツールと統合したりすることができます3。
実装されているアルゴリズム
LyCORISは主に以下の微調整アルゴリズムを実装しています:
LoRA (LoCon)
元のLoRA(Low-Rank Adaptation)をベースにしていますが、大規模言語モデルのアテンション層に適用するのではなく、拡散モデルの畳み込み層にも拡張しています。畳み込み層にLoRAを適用することで、微調整の効果を高めることが意図されています3。
LoHa
LoHaはHadamard積(要素ごとの積)を用いた低ランク適応手法です。LoRAのような低ランク行列分解手法の低ランク制約を緩和するため、FedParaの考え方を応用しています。同じパラメータ数でより高いランクの行列表現が可能となり、微調整の能力を向上させることができます3。
LoKr
LoKrはKronecker積を用いた低ランク適応手法で、もともとKronAとして言語モデルの微調整のために提案された技術を拡張したものです。Kronecker積の性質により、低ランク仮定の制限を超えることができます。さらに、Kronecker分解から得られる右ブロックのみに対して選択的に低ランク分解を適用するオプションも提供しています3。
これらの主要な手法に加えて、LyCORISはDyLoRA、GLoRA、(IA)³など他のアルゴリズムも実装しています。さらに、GLoRAの基本概念とLoKrの線形層適応を融合させたGLoKrも作成されています3。
モデル評価フレームワーク
LyCORISによって可能となった多様なアルゴリズム選択とハイパーパラメータ設定を考慮すると、自然な疑問が生じます:Stable Diffusionの微調整には最適なアルゴリズムやハイパーパラメータセットがあるのでしょうか?この質問に包括的に取り組むためには、まずモデル評価のための明確なフレームワークを確立することが不可欠です3。
画像生成のためのプロンプト分類
著者らは画像生成を導くプロンプトを以下の3つの主要なタイプに分類しています:
- トレーニングプロンプト:モデルのトレーニングに使用された元のプロンプト。これらのプロンプトから生成された画像はトレーニングデータセットと密接に一致することが期待され、モデルがターゲット概念をどれだけ正確に捉えたかについての洞察を提供します3。
- 一般化プロンプト:学習した概念をより広いコンテキストに一般化する画像を生成することを目的としたプロンプト。これには、基本モデルの本来の知識と学習した概念の組み合わせ、同じモデル内でトレーニングされた概念の組み合わせ、および後でマージされる異なるモデル間でトレーニングされた概念の組み合わせが含まれます3。
- 概念に依存しないプロンプト:トレーニングセットからのトリガーワードを意図的に避けるプロンプトで、概念漏れを評価するために使用されます3。
評価基準
著者らは生成された画像を評価する際に考慮すべき側面として、以下の5つの基準を提案しています:
- 忠実性(Fidelity):生成された画像がターゲット概念にどの程度準拠しているかを測定します3。
- 制御可能性(Controllability):テキストプロンプトと生成画像の一致度を評価します3。
- 多様性(Diversity):単一または一連のプロンプトから生成される画像の多様性を評価します3。
- 基本モデル保存性(Base Model Preservation):微調整が基本モデルの本来の能力にどの程度影響するかを測定します。例えば、ターゲット概念がオブジェクトである場合、基本モデルによって生成されるような背景やスタイルを保持することが望ましい場合があります3。
- 画像品質(Image Quality):生成された画像の視覚的魅力に関するもので、主に自然さ、アーティファクトの不在、奇妙な変形の欠如などの側面に焦点を当てています3。
実験と分析
著者らはLyCORISのさまざまなアルゴリズムを比較し、ハイパーパラメータの影響を評価するために広範な実験を行いました。基本モデルとしてStable Diffusion 1.5のnon-EMAバージョンを使用しています3。
データセット
実験では、先行研究とは異なり、少数の画像による単一概念の微調整ではなく、各概念の画像数にばらつきがある幅広い概念にまたがるデータセットを使用しています。このデータセットは階層的に構成されており、アニメキャラクター、映画キャラクター、シーン、ぬいぐるみ、スタイルの5つのカテゴリにまたがる1,706枚の画像を特徴としています3。
また、トレーニングキャプションの影響も考慮し、公開されているタガーを使用して画像にタグ付けし、各ターゲット概念に固有のタグを除去した後、残ったタグを概念識別子と組み合わせてより情報量の多いキャプションを作成しています3。
アルゴリズム構成と評価
実験では、LyCORISに実装されているLoRA、LoHa、LoKrとネイティブ微調整(DreamBoothはregularization imagesを持つネイティブ微調整と見なせる)に焦点を当てています。これらの4つのアルゴリズムそれぞれについて、デフォルトのハイパーパラメータを定義し、学習率、トレーニング層、dimとalphaパラメータ(LoRAとLoHa)、およびfactorパラメータ(LoKr)を個別に変化させました。これにより26の異なる構成が生まれ、各構成について3つの異なるランダムシードでモデルをトレーニングし、各微調整過程で3つのチェックポイントを保存し、合計234のチェックポイントを得ました3。
評価のために、著者らは以下の4タイプのプロンプトを考慮しています:
- <train>:トレーニングキャプション
- <trigger>:概念識別子のみ
- <alter>:コンテンツ変更のある一般化プロンプト
- <style>:スタイル変更のある一般化プロンプト
各クラスまたはサブクラスについて100枚の画像を生成し、チェックポイントあたり14,900枚の総画像を生成しています3。
評価指標は、前述の評価基準を捉えるように設計されており、以下のように各基準に対応する指標が設定されています:
- 忠実性:DINOv2埋め込みを使用した生成画像とデータセット画像間の平均コサイン類似度と二乗セントロイド距離3。
- 制御可能性:CLIP特徴空間における生成画像と対応するプロンプト間の平均コサイン類似度3。
- 多様性:DINOv2埋め込みを使用して計算されたVendiスコア3。
- 基本モデル保存性:<style>プロンプトに対する基本モデルと微調整モデルの出力間の標準スタイル損失3。
- 画像品質:適切な評価方法が見つからなかったため、主要実験では品質指標を含めていません3。
実験結果と洞察
実験結果の分析には、SHAP(SHapley Additive exPlanations)分析とCatBoostリグレッサーを組み合わせて、異なるアルゴリズムコンポーネントが考慮される指標に与える影響を明確に視覚化しています3。
トレーニングエポック数
「シーン」と「ぬいぐるみ」カテゴリでは、30および50エポックのチェックポイントはほぼ普遍的にオーバートレーニングされています。一般的に、エポック数を増やすと概念忠実性は向上しますが、テキスト-画像一致、多様性、基本モデル保存は損なわれる傾向があります3。
学習率
合理的な範囲内では、学習率を上げることはトレーニングエポック数を増やすのと同じ効果があるようです。ただし、極端に低い学習率は単にトレーニング期間を延長するだけでは克服できません3。
アルゴリズム
同程度のパラメータ数を持つ場合、画像類似性の点ではLoKrがLoRAよりも優れており、LoRAはLoHaよりも優れている傾向がありますが、他の指標ではこのランキングは通常逆転します。LoKrは幅広い潜在的なパラメータ数にわたって適応できるユニークな利点を持っています3。
ネイティブ微調整は、適切に調整された場合、高いテキスト類似性と画像類似性、強力な基本モデルスタイル保存を達成できますが、多様性を損なうことがよくあります3。
トレーニング層
アテンション層のみを微調整すると、画像類似性が大幅に低下する一方で、他の指標が向上します。これは、フィードフォワード層を微調整しないことで、モデルがキャラクターの制服などを正しく学習できない場合があります。畳み込み層の微調整の影響はあまり明確ではありません3。
Dim、Alpha、Factor
LoRAのデフォルト設定はdim 8、alpha 4、LoHaはdim 4、alpha 2、LoKrはfactor 8と設定しています。モデル容量を増やすには、dimを増やすかfactorを減らします。dimとalphaの比率が固定されている場合、モデル容量を増やすことは学習率を上げるかトレーニングエポックを増やすのとほぼ同じ効果があります3。
結論と今後の展望
この論文は、Stable Diffusionの効率的な微調整のためのさまざまな手法を実装したオープンソースライブラリLyCORISを導入し、異なる微調整手法のニュアンスをより良く捉える包括的な評価フレームワークを提唱しています。著者らの広範な実験は、アルゴリズムの選択とその構成がモデルのパフォーマンスに与える影響を明らかにし、それらの相対的な強みと限界を示しています3。
興味深いことに、LoHaとLoKrはどちらもLoRAに比べて最大行列ランクを増加させていますが、モデル微調整への影響は異なっており、ランクがこのコンテキストでの手法のパフォーマンスを予測する最良の指標ではないことを示唆しています3。
しかし、この研究の範囲は限られており、例えば複数の学習概念を持つ画像生成のタスクは探求されていません。このような側面は入力プロンプトに高度に敏感であり、評価がより困難です。今後の研究では、これらの新興評価フレームワークを取り入れることで、微調整手法の比較がさらに豊かになることが期待されます3。

LyCORISと従来のLoRAトレーニングの比較
要約
LyCORISはLoRAを拡張したパラメータ効率的な微調整手法として、以下の特徴を持つ:
- 利点:柔軟な行列分解手法(LoHa/LoKr)による表現力向上、基本モデルの保存性向上、複数モデルの合成可能性
- 欠点:計算コスト増加、ハイパーパラメータ調整の複雑化、特定の指標間でのトレードオフ
表現能力とパラメータ効率
利点
- 高度な行列分解手法
LoHa(Hadamard積)とLoKr(Kronecker積)の導入により、同じパラメータ数でより高ランクの行列を表現可能610。例えばdim=8設定時、LoRAの最大ランク8に対しLoHaは64、LoKrは256まで可能10。 - 階層的適応能力
畳み込み層を含む全ネットワーク層への適応が可能(LoCon)810。従来のLoRAが主にアテンション層に限定されていたのに対し、画像の局所的特徴の学習を改善616。 - 動的容量調整
DyLoRAを実装し、単一トレーニングで複数のランクを同時学習可能10。これにより異なる詳細度での生成が可能に17。
欠点
- 計算複雑性
LoHaは4つの低ランク行列、LoKrはKronecker分解を必要とし、推論時のメモリ使用量が最大2倍増加816。 - 互換性制約
高次元設定時(dim>32)に他モデルとの合成が困難410。特にLoKrのfactor設定が低い場合、基本モデルとの整合性が低下6。
トレーニング特性
利点
- 学習率感度の低減
αパラメータの自動スケーリング機構により、LoRAに比べ学習率設定範囲が3倍以上拡大410。特に大規模データセット(1000+画像)で安定性向上6。 - 部分層更新の最適化
アテンション層のみの更新(attn-only)でも、従来のLoRA比でテキスト-画像一致率を15%向上6。これは基本モデルの知識保存に寄与16。
欠点
- 収束速度の遅延
CIFAR-10データセットでの実験では、同等精度達成にLoRA比20%長いエポック数が必要616。特にLoKrの高factor設定で顕著10。 - オーバーフィッティングリスク
小規模データ(<50画像)では、LoRAの0.3%に対しLyCORISは1.2%の過学習率を示す615。正則化画像の使用が必須8。
生成品質比較
利点
- 細部再現性
DINOv2埋め込み空間での類似度比較では、衣装の模様等の微細特徴でLoRA比30%高い忠実性を達成617。 - スタイル混合能力
複数スタイルの合成(例:浮世絵×写実風景)で、CLIP類似度0.72→0.81に改善617。Kronecker積の非線形性が寄与10。
欠点
- 多様性低下
ImageNet-1k評価では、LoRAのVendiスコア0.85に対しLyCORISは0.786。特にLoHaで顕著な均質化傾向16。 - アーティファクト発生
高周波数成分の再現に課題があり、FFT解析でLoRA比23%高いノイズ成分を検出617。
実用面での比較
利点
- ファイルサイズ最適化
同等性能でLoRA比40%小さいモデルサイズ(例:144MB→86MB)を実現810。LoKrのfactor調整が鍵4。 - クロスモデル互換性
SD 1.5で学習したLyCORISをSDXLへ転用時、LoRA比で17%高い互換性を確認616。