AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Hugging Face Blog·2026年6月18日 09:00·約19分で読める

LoRA を超えるか?最も人気のあるファインチューニング手法に勝てるか

#LLM#ファインチューニング#LoRA#Hugging Face
TL;DR

Hugging Face は、現在業界標準となっている LoRA の限界を検証し、より効率的で高性能な次世代ファインチューニング手法の可能性を探る議論を行っている。

AI深層分析2026年6月18日 16:06
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

LoRA の現状と限界の分析

最も普及している LoRA が直面する計算効率や表現能力のボトルネックについて、Hugging Face が客観的に検証を行っている。

2

次世代ファインチューニング手法の探求

LoRA を上回る性能を持つ新たなアプローチが存在するか、その技術的実装可能性と理論的根拠について議論が展開されている。

3

コミュニティによる技術的検証

単なる新手法の発表ではなく、オープンな環境で既存手法との比較検討が行われ、エンジニアリング視点からの深い分析が提供される。

影響分析・編集コメントを表示

影響分析

この記事は、LLM ファインチューニング分野における技術的転換点を示唆しており、開発者が LoRA に依存するだけでなく、より効率的な新手法を模索する必要性を浮き彫りにしている。Hugging Face という主要プラットフォームが主導することで、次世代技術の標準化や実装基準への影響が期待される。

編集コメント

LoRA の限界を直視し、次のステップを探る姿勢は、現場のエンジニアにとって非常に示唆に富んでいます。技術選定の基準を見直す絶好の機会となる記事です。

記事一覧に戻る

imageimage

パラメータ効率の良い方法でモデルをファインチューニングする計画を立てるなら、LoRA だけにとどまらない思考が求められる

ご自身のデータ上でオープンソースのモデルをファインチューニングしたい場合、おそらく「パラメータ効率の良いファインチューニング(PEFT: Parameter-Efficient Fine-Tuning)」と呼ばれる技術に関心があるでしょう。この用語は、モデルをファインチューニングするために必要なメモリ要件を大幅に削減する技術を指します。こうした技術は数十種類存在しますが、ほとんどの方が「LoRA」と呼ばれる一つの方法を選択しています。この記事では、LoRA が本当に最良の選択肢なのか、情報に基づいた判断を下すために利用可能なツールは何か、そして LoRA の枠を超えて視野を広げることでどのような恩恵が得られるのかを探ります。

PEFT とは何か、またいつ必要となるのか

利用可能なオープンソースモデルは無数にありますが、それらは往々にして特定のユースケースには十分ではありません。プロンプト(prompt)で対応できる場合もありますが、通常は不十分なことが多いです。ゼロから新しいモデルを訓練するのではなく、既存のモデルをファインチューニングすることを検討すべきです。

しかしながら、ファインチューニングはメモリを大量に消費します:一般的には、モデル全体を数回分収容できるだけのメモリが必要です。量子化(quantization)はモデルのメモリフットプリントを削減しますが、量子化されたモデルを直接ファインチューニングすることはできません。そこで、ファインチューニングに必要なメモリを削減するための一連の技術が出現し、「パラメータ効率の良いファインチューニング(PEFT: Parameter-Efficient Fine-Tuning)」と呼ばれるようになりました。

PEFT を使用すれば、メモリのごく一部のみでモデルのファインチューニングが可能であり、量子化されたモデルのファインチューニングさえも実現できます。また、チェックポイントサイズの極小化、壊滅的忘却に対する高い耐性、同じベースモデルから複数のファインチューニングを同時に提供できる能力など、他の利点も提供します。

Hugging Face では、PEFT ライブラリを開発しており、これは多数の PEFT 手法を統一された API の背後で実装し、エコシステムとよく統合されています。具体的には Transformers や Diffusers との連携が可能です。また、複数の量子化手法にも対応しており、パラメータ効率の良いファインチューニングにおけるアクセシビリティをさらに高めています。ご自身のデータでファインチューニングを行いたい場合でも、新しい PEFT 手法の研究を行っている場合でも、PEFT は優れた出発点となります。

LoRA: ファインチューニング技術の女王 👑

早期に登場し、非常に効果的であることが証明されたパラメータ効率の良いファインチューニング手法の一つに、「Low Rank Adaptation(低ランク適応)」、略して "LoRA" があります。これは、ベースモデルの上に少数のパラメータを追加し、ベースモデルの重みを凍結した上で、その少数のパラメータのみを訓練することで動作します。

すべての PEFT 手法の中で、LoRA は現在までに最も人気があります。いくつかの推定値を以下に示します:

  • Hugging Face Hub に存在する、ちょうど一つの PEFT(Parameter-Efficient Fine-Tuning)手法を言及しているモデルカード 20,834 件のサンプルのうち、20,509 件が LoRA を言及しています(98.4%)。
  • 私たちはまた、外部サイトにおいて画像生成にどの PEFT 手法が人気かを調査しました。10,000 のチェックポイントのサンプルを用いたところ、7,111 が LoRA であることが判明しました。他に見つかった PEFT 手法は LoCon(363 件)と DoRA(11 件、これは LoRA の派生形 arguably と見なされます)です。つまり、PEFT チェックポイントの 95.0% が LoRA です。
  • GitHub で「peft import <PEFT CONFIG>」というコードスニペットを検索した結果(例:GH クエリ)、71.3% の結果が LoRA に関するものでした。次点となったのは LoHa(3.7%)と AdaLoRA(3.5%)です。

これらの推計は完璧ではありませんが、結論として LoRA が圧倒的に最も一般的な PEFT 手法であることは疑いようがありません。

これは単に、LoRA が誰にとっても最もよく機能するという事実を反映しているだけかもしれません。しかし、別の可能性も考えられます。LoRA は初期の、人気のある PEFT 手法の一つでした。そのため、その利用が自己強化された可能性があります。つまり、LoRA は可視性が最も高く、チュートリアルや例の数が最も多く、下流のパッケージにおけるサポートも最良です。このように、LoRA の人気はそれ自体によって支えられています。

これらすべてが、一つの問いへと導きます:*私たちはより優れた手法を避けることで、性能を台無しにしているのでしょうか?* 結局のところ、自らの手法が LoRA を凌駕すると主張する無数の研究者の論文が存在します。それが、LoRA を超えて新しい手法を採用すべきだという十分な証拠ではないでしょうか?

ペーパー結果に基づいて適切な PEFT 手法を選ぶことは問題がある

LoRA 以外のファインチューニング手法を調査した論文は数十本あります。PEFT ライブラリだけでも、執筆時点では 40 種類以上の異なる PEFT 手法が存在します(PEFT 手法のバリエーションを含めればさらに多数です)。これらのほとんどについて、研究者が自らの手法がベンチマークにおいて LoRA を上回ると主張しているのを発見できるでしょう。

これらの主張の問題点は、研究者が既存のベンチマークを上回る結果を提供する圧力にさらされていることです。悪意がなくても、これが結果をバイアスさせる可能性があります。例えば、研究者が提案した手法と比較して、代替手法のチューニングに割く時間を少なくするなどです。ある研究では、学習率を調整することで LoRA が supposedly より優れた PEFT 手法と互角になることが示されています(https://arxiv.org/abs/2602.04998)。

もう一つの複雑さは、各論文が比較対象とする PEFT 手法のセットや実行するベンチマークのセットをそれぞれ異なっている点です。たとえ同じ手法を同じベンチマークで比較した場合でも、コードが公開されていないか、自分で実行するのが容易でないことが多く、結果の再現性が困難になります。

全体として、ペーパー結果のみを確認して、あなたにとって最も効果的な PEFT 手法を見極めるのは難しいです。そのため、デフォルトである LoRA をそのまま使うことに誘惑されるかもしれません。

PEFT におけるベンチマークアプローチ

Hugging Face では、ユーザーがどの PEFT(Parameter-Efficient Fine-Tuning)手法を使用するかについて、情報に基づいた判断を下せるよう支援する方法を検討しています。PEFT ライブラリでは、すでに多くの PEFT 手法を実装し、同じ API で公開するパッケージを提供しています。次のステップは、議論されている課題をより明確にするベンチマークを提供することです。

私たちはすでに、LLM(大規模言語モデル)の数学データセットにおけるファインチューニングを検証するベンチマークを MathQA で長期間運用してきました。このベンチマークでは、指示付きファインチューニングが施されていないベースモデルを用いて、LLM に思考の連鎖(chain-of-thought)推論によるファインチューニングを施し、数学的な質問に対する回答結果を生成します。これにより、モデルが数学的推論を実行する方法を学習できるか、また生成された出力を期待される形式に調整できるかを検証しています。

他のモダリティについても知見を広げるため、画像生成ベンチマーク も追加しました。このベンチマークでは、モデルが新しい概念(例:猫のぬいぐるみ)を学習してファインチューニングできるか、既存の概念を忘却することなく新しい文脈でそれを生成できるかをテストします。

すべての PEFT(Parameter-Efficient Fine-Tuning:パラメータ効率的微調整)手法は、全く同じ条件の下で評価されます。つまり、ベースモデルもデータセットも、トレーニングおよび評価コードもハードウェアもすべて同一です。ユーザーごとにニーズが異なるため、テストパフォーマンスだけでなく、他の指標も追跡しています。VRAM(ビデオメモリ)の使用量に加え、忘却/ドリフト、ランタイム、チェックポイントサイズなどのメトリクスを記録します。これらの結果はコンシューマー向けハードウェアで実行できるように設計されており、新しい実験を追加する場合は、新しい PEFT 設定を追加してスクリプトを実行するだけで済みます。

すべての PEFT 手法を公平な立場で比較し、特定の手法に偏りがないため、これらのベンチマークは異なる PEFT 手法がどの程度機能するかという客観的な像を描き出すことができると考えています。もしご自身でデータセットをお持ちであれば、同様のアプローチを取り、PEFT ライブラリを活用して複数の PEFT 手法を評価することをお勧めします。

私たちの発見:LoRA はよく機能するが、必ずしも最良の選択肢ではない

ベンチマークの実行を終えた結果、LoRA がよく機能することは確認できましたが、他の PEFT 手法は 1 つ以上の軸において LoRA を上回る可能性があり、したがって検討対象とするべきであることがわかりました。以下に示す画像で、LoRA とその他の 5 つの PEFT 手法のパフォーマンスを比較しています。

imageimage

*ベンチマークからの一部の結果。テスト性能とメモリ使用量の観点では、LoRA が必ずしも最良の選択肢とは限りません。左:MetaMathQA ベンチマーク;右:画像生成ベンチマーク。最新の結果については、この Space を参照してください。

上記の結果を解釈する一つの方法は、トレードオフの観点から考えることです。例えば、「モデルがテストセットでどの程度性能を発揮するか」と「それを学習するために必要なメモリ量」の関係はどうなるでしょうか?ある PEFT(Parameter-Efficient Fine-Tuning)手法が、他のいかなる手法によっても同時に両方の指標において凌駕できない場合、その手法は*パレートフロンティア*上に位置すると考えられます。つまり、「より高いテスト精度を望むなら、より多くのメモリが必要であり、より高いメモリ効率性を求めるなら、精度を犠牲にしなければならない」ということです。

LLM Math データセットベンチマークの結果をもう少し詳しく見てみましょう。テスト精度とメモリ使用量の関係において、LoRA は確かにパレートフロンティア上に位置しています。53.2% のテスト精度を達成し、ピーク時には 22.6 GB の VRAM を必要とします。しかし、パレートフロンティア上には他の PEFT(Parameter-Efficient Fine-Tuning)技術も存在します。例えば、BEFT は 32.9% のテスト精度を達成し、最大でも 20.2 GB のメモリしか必要としません。反対側に位置する Lily は 54.9% のテスト精度を達成しますが、25.6 GB のメモリを必要とします。何がより重要かによって、LoRA があなたにとって最適なトレードオフではないと結論付けることもできるでしょう。

imageimage

*メタ・llama/Llama-3.2-3B のファインチューニングと GSM8K での評価における、テスト精度とメモリ使用量のトレードオフ。LoRA はよく機能しますが、他の PEFT 技術も同様に良好な結果を示しています。*

また、LoRA はこのタスクにおいて良好な結果を示していますが、ここでは標準的な LoRA について言及しているわけではありません。一方には、rank stabilized initialization を採用した LoRA があり、これはデフォルトの初期化とは異なる方法で LoRA の寄与をスケーリングする技術であり、非常に高いテスト精度(53.2%)を提供します。他方では、LoRA に特化したオプティマイザを使用し、LoRA 重みの一部を凍結することでよりメモリ効率的な LoRA-FA があります。通常の LoRA は 22.5 GB のメモリで精度 48.1% にしか達しないため、代替案を優先すべきです。

次に画像生成ベンチマークを見てみましょう。Hugging Face Space で「Select Task」ドロップダウンから"image-gen"を選択すると結果が表示されます。このタスクの目的は、新しい概念(具体的には猫のぬいぐるみ)を学習し、新しいプロンプトにも一般化することです。

imageimage

*FLUX.2-klein-base-4B で LoRA 微調整して作成された猫のぬいぐるみの画像。*

このタスクにおける主要な指標は「dino similarity」であり、これは生成された画像がホールドアウトテストデータセットからの画像とどの程度類似しているかを測定するものであり、値が高いほど優れています。いつもの通り、メモリ使用量にも注意を払う必要があります。これらの 2 つの指標のパレートフロンティア(最適解の集合)をプロットすると、LoRA はそのフロンティアの下に位置することがわかります。具体的な数値を見てみましょう:LoRA は類似度スコア 0.697 を達成する一方、OFT は 0.708 を記録します。メモリ使用量については、LoRA が 9.97 GB を必要とするのに対し、OFT は 9.01 GB で済みます。したがって、これらの指標において OFT は LoRA を厳密に上回っています。

image
image

*FLUX.2-klein-base-4B のファインチューニングとテストセットでの評価における、テスト精度とメモリ使用量のトレードオフ。OFT などの他の PEFT(Parameter-Efficient Fine-Tuning)手法は、テストスコアが高く、かつメモリ使用量が低い点で LoRA を上回っています。

もちろん、パレートフロンティアに近い他の PEFT 手法も確認すべきです。指標にはランダム性による小さな変動が生じる可能性があるためです。また、他の指標も探求する必要があります:実行時のパフォーマンスが重要ですか?それともチェックポイントのサイズを重視しますか?ドロップダウンから関連する指標を選択すると、グラフは大きく変化することがあります。画像生成ベンチマークにおいては、ファインチューニングされたモデルの能力感を掴むために、生成されたサンプル画像を必ず確認してください。

制限事項

異議:しかしベンチマークは特定の手法を他よりも優遇している!

PEFT ベンチマークに対する一つの批判として、ハイパーパラメータの選択が特定の手法を他よりも有利にする可能性があるという点が挙げられます。これは事実であり、これほど多くの手法を対象に包括的で公平なハイパーパラメータ探索を行うことは困難です。しかしながら、誰もが各自の実験結果を PEFT に貢献することは非常に容易です。特定の PEFT 技法が異なるハイパーパラメータの選択によって改善可能だと考える場合は、PR(プルリクエスト)を作成してください!その方法に関する手順を追加しました。同様に、完全に新しいベンチマークを貢献したい場合は、アイデアについて議論するために私たちに連絡してください。

ベンチマークのもう一つの課題は、特定の PEFT 技法の能力を十分に反映していない可能性があることです。私たちは、多くの異なる次元に沿って技法を比較し、これらのトレードオフに基づいて最適な手法を発見することを可能にしています。しかし、この方法ですべての側面を捉えることは不可能です。例えば、「Cartridges」と呼ばれるある PEFT 技法(https://huggingface.co/docs/peft/package_reference/cartridges)は、ベンチマークでは測定されていない長文プロンプトの圧縮のために開発されました。他の要因も選択に影響を与える可能性があります。例えば:

  • PEFT 技法によっては、修正可能なレイヤータイプが特定のもののみに限定されます。
  • すべての PEFT(Parameter-Efficient Fine-Tuning)技術が量子化されたベースモデルをサポートしているわけではありません(ただし、PEFT 側ではサポートの拡大を積極的に進めています)。
  • 一部の PEFT 技術ではアダプターをマージしてランタイムオーバーヘッドを削減できますが、そうでないものもあります。

ベンチマーク結果は、ユーザー自身が調査を行う責任を完全に肩代わりするものではありませんが、合理的な指針にはなり得ます。

*画像をクリックすると PEFT ショップが開き、あなたに最適な PEFT 技術を見つけることができます。ベンチマーク指標だけでなく、量子化サポートのような機能別にも閲覧できます。*

異議:しかし llama.cpp/vLLM/... は LoRA のみをサポートしている

LoRA 以外の PEFT 技術を使用する際の制限は、それらが LoRA が享受しているような下流パッケージでの広範なサポートを得られない点です。例えば、vLLM を使用してモデルをサービス提供する場合、LoRA チェックポイントのみを読み込むことができます。幸いにも、PEFT では 他のアダプターを LoRA へ変換する機能 がサポートされています。これにより、非 LoRA のチェックポイントを LoRA 形式に変換し、vLLM やその他の下流パッケージで使用することが可能になります。

この検証として、GraLoRA 技術を用いた画像アダプターを LoRA チェックポイントに変換しました。変換後のテストスコアはほぼ同一でした(類似度:0.702 → 0.694、0.260 → 0.269)。以下に、「sks cat at the beach」というプロンプトに対するテスト画像を示します。

現時点ではすべての PEFT 技術の変換機能を実装していませんが、需要があればサポート範囲を拡大する予定です。

結論と今後のアクション

PEFT パッケージの開発に取り組んでいる際、他の PEFT(Parameter-Efficient Fine-Tuning)手法の方が潜在的には優れている可能性もあるにもかかわらず、LoRA には大きな勢いがあることに気づきました。そこで、異なる PEFT 手法がさまざまな指標でどの程度パフォーマンスを発揮するかをより客観的に示すベンチマークを PEFT に追加することを決意しました。

得られた結果に基づけば、LoRA が全く悪い選択肢であるとは決して言えず、むしろ潜在的により良い選択肢が存在すると自信を持って結論付けられます。特に画像生成のベンチマークを確認すると、LoRA は他の手法に劣ることが明らかになりました。適切な PEFT 手法を選択する際には指標以外の考慮事項も重要であると議論しましたが、それでもなお、LoRA とその他の手法との間で機能の同等性を達成するために、PEFT をさらに発展させるよう努めています。

私たちの取り組みは決して終わっていません。既存のベンチマークを拡張・改善したいと考えており、将来的にはより多くのベンチマークを追加する計画もあります。コミュニティが簡単に貢献できるよう配慮しているため、もしあなたがそのように取り組みたいとお考えであれば、PEFT リポジトリの issue を開いていただき、どのように貢献したいかをお知らせください。

この記事から一つだけ覚えておいてほしいことは、ユースケースに合わせて PEFT(Parameter-Efficient Fine-Tuning)手法を選択する際、LoRA を自動的にデフォルトとして選ぶべきではないということです。PEFT が提供する統一された API により、コード内の設定を切り替えるだけで、ある PEFT 手法から別の手法への変更は非常に簡単です。また、たとえ LoRA にこだわったとしても、PEFT でサポートされているすべてのバリアント(DoRA, rs-LoRA, LoRA-FA など)を確認してください。これらの他の手法を試してみることで、予期せぬ良い結果に驚くかもしれません。

*例:PEFT を使用して LoRA から OFT への変更*

from transformers import AutoModelForCausalLM

-from peft import LoraConfig, get_peft_model

+from peft import OFTConfig, get_peft_model

base_model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3.2-3B", dtype="bfloat16")

-config = LoraConfig(target_modules=["q_proj", "v_proj"])

+config = OFTConfig(target_modules=["q_proj", "v_proj"])

model = get_peft_model(base_model, config)

原文を表示

Back to Articles

Is LoRA the best PEFT technique?
Is LoRA the best PEFT technique?

When you plan to fine-tune a model in a parameter-efficient way, think beyond LoRA

If you want to fine-tune an open model on your own data, you are probably interested in so-called parameter-efficient fine-tuning, in short *PEFT*. This term describes techniques that significantly reduce the memory requirement to fine-tune a model. Although there are dozens of these techniques, almost everyone chooses one called “LoRA”. In this blog post, we explore whether LoRA is really the best choice, what tools are available to make an informed decision, and how you can benefit from extending your horizon beyond LoRA.

What is PEFT and when do you need it

There are countless open models available, but they often aren't quite good enough for your use case. Prompting may help, but it usually isn't enough. Rather than training a new model from scratch, you should consider fine-tuning an existing one.

Fine-tuning, however, is memory-hungry: you generally need enough memory to fit the whole model several times over. Quantization reduces a model's memory footprint, but quantized models can't be fine-tuned directly. So a set of techniques emerged to cut the memory needed for fine-tuning, called "parameter-efficient fine-tuning", or PEFT.

With PEFT, you can fine-tune a model using only a fraction of that memory and even fine-tune quantized models. It offers other advantages, such as tiny checkpoint sizes, greater resistance to catastrophic forgetting, and the ability to serve multiple fine-tunes from the same base model.

At Hugging Face, we develop the PEFT library, which implements many PEFT techniques behind a unified API and integrates well with the ecosystem, for example Transformers and Diffusers. It also supports multiple quantization methods, enabling further accessibility in parameter-efficient fine-tuning. PEFT provides a good starting point, whether you want to fine-tune on your own data or you're researching a new PEFT method.

LoRA: The queen of fine-tuning techniques 👑

One parameter-efficient fine-tuning technique that emerged early and proved to be quite effective is called “Low Rank Adaptation”, or short “LoRA”. It works by adding a handful of parameters on top of the base model, freezing the base model weights, and only training those few parameters.

Among all PEFT techniques, LoRA is by far the most popular. Here are a few estimates:

  • Of a sample of 20,834 model cards on Hugging Face Hub that mention exactly one PEFT technique, 20,509 mention LoRA (98.4%).
  • We checked which PEFT techniques are popular for image generation on an external site, too. Using a sample of 10,000 checkpoints, we found 7,111 to be LoRAs. The other identified PEFT techniques are LoCon (363) and DoRA (11, arguably a LoRA variant). That means 95.0% of PEFT checkpoints are LoRAs.
  • Searching for the code snippet from peft import <PEFT CONFIG> on GitHub (example GH query), 71.3% of results are for LoRA. The runners-up are LoHa (3.7%) and AdaLoRA (3.5%).

Although these estimates are not perfect, the conclusion is nonetheless that LoRA is almost certainly by far the most common PEFT technique.

This could just mean that LoRA works best for everyone, and this fact is reflected in its usage statistics. There is, however, another possibility: LoRA was one of the earlier, popular PEFT techniques. So maybe its usage became self-reinforcing: LoRA has the highest visibility, the highest number of tutorials/examples, and it has the best support in downstream packages. Thus LoRA's popularity feeds on itself.

This all leads to the question: *Are we all leaving performance on the table by shunning better techniques?* After all, there are countless researchers whose papers claim their technique beats LoRA. Isn't that sufficient proof that we should go beyond LoRA in favor of newer techniques?

Choosing the right PEFT technique based on paper results is problematic

There are dozens of papers that investigate fine-tuning techniques other than LoRA. Just in the PEFT library, there are more than 40 distinct PEFT techniques at the time of writing (and numerous more when counting variations of PEFT techniques). For almost all of them, you will find researchers claiming that their technique beats LoRA according to their benchmarks.

The trouble with these claims is that researchers are under pressure to provide results that beat the existing benchmark. Even without ill intent, this can bias the results, e.g. by spending less time tuning the alternative techniques compared to the one proposed by the researchers. One study found, for instance, that LoRA can match supposedly better PEFT techniques by tuning the learning rate (https://arxiv.org/abs/2602.04998).

Another complication is that each paper chooses a different set of PEFT techniques to compare to, and a different set of benchmarks to run. And even if the same technique is compared on the same benchmark, the code is often not available or not easy to run yourself, which makes results hard to reproduce.

Overall, it's difficult to figure out the PEFT technique that works best for you by only checking paper results. Therefore, you might be tempted to just go with the default, LoRA.

How we approach benchmarking in PEFT

At Hugging Face, we thought about how we can help users make informed decisions about which PEFT technique to use. With the PEFT library, we already provide a package that implements many PEFT techniques and exposes them with the same API. The next step is to provide benchmarks that can shed more light on the discussed issue.

We already had a benchmark that checks fine-tuning of LLMs on a math dataset for some time. This benchmark takes an LLM and fine-tunes it on chain-of-thought reasoning to produce the result to a mathematical question using a base model that is not instruction fine-tuned. The benchmark thus checks if the model can learn to perform mathematical reasoning and also to adjust the generated output to the expected format.

To extend our findings on another modality, we also added an image generation benchmark. This one tests whether the model can be fine-tuned to learn a new concept, a cat plushy, and generate it in new contexts without forgetting existing concepts.

All PEFT techniques are evaluated according to the exact same conditions: same base model, same dataset, same training and evaluation code, same hardware. As different users have different needs, we track more than just test performance. Besides VRAM usage, we track metrics like forgetting/drift, runtime, and checkpoint size. The results are designed to run on consumer hardware, and adding a new experiment only requires adding a new PEFT config and running a script.

Since we compare all PEFT techniques on equal footing and have no horse in the race, we believe that these benchmarks can draw an objective picture of how well different PEFT techniques work. We argue that if you have your own dataset, you can take a similar approach and take advantage of the PEFT library to evaluate multiple PEFT techniques.

Our findings: LoRA works well but is not necessarily the best choice

After finishing the benchmark runs, we found that although LoRA works well, other PEFT methods can beat it on one or multiple axes and should thus be considered. Check the image below that compares the performance of LoRA and five other PEFT techniques.

*Some results from the benchmark. When it comes to test performance and memory usage, LoRA is not necessarily the best choice. Left: MetaMathQA benchmark; right: image generation benchmark. Consult this Space for the most up-to-date results.*

One way to interpret the results above is to think in terms of tradeoffs, for example: How well does the model perform on the test set vs how much memory is needed to train it? If a PEFT technique cannot be beaten on both of these metrics at the same time by any other technique, it is on the *Pareto Frontier*. In other words: If you want better test accuracy, you need more memory, and if you want more memory efficiency, you have to give up on accuracy.

Let's take a closer look at the results for the LLM Math dataset benchmark. When it comes to test accuracy vs memory, we find that LoRA is indeed on the Pareto frontier. It achieves 53.2% test accuracy and requires 22.6 GB of VRAM at the peak. There are, however, other PEFT techniques on the Pareto Frontier. For instance, BEFT achieves 32.9% test accuracy and requires only 20.2 GB of memory at max. On the other end, we have Lily, which achieves 54.9% test accuracy but requires 25.6 GB of memory. Depending on what's more important to you, you may conclude that LoRA does not present the best tradeoff for you.

*Test accuracy vs memory usage tradeoff of fine-tuning meta-llama/Llama-3.2-3B and evaluating it on GSM8K. LoRA does well but so do other PEFT techniques.*

It is also worth noting that even though LoRA does well on this task, we're not talking about vanilla LoRA. On one side, we have LoRA with rank stabilized initialization, which is a technique to scale the LoRA contribution differently from the default initialization and provides very good test accuracy (53.2%). On the other end, we have LoRA-FA, which uses an optimizer specialized for LoRA that freezes part of the LoRA weights and is thus more memory efficient (20.2 GB). Normal LoRA only achieves an accuracy of 48.1% at 22.5 GB memory and should thus be avoided in favor of the alternatives.

Next let's take a look at the image generation benchmark. In the Hugging Face Space, choose “image-gen” in the “Select Task” dropdown to show the results. The goal of the task is to learn a new concept, namely a cat plushy, and generalize it to new prompts.

*Cat plushy image created with LoRA fine-tuned on FLUX.2-klein-base-4B.*

For this task, the main metric is “dino similarity”, which measures how much a generated image resembles the picture from a holdout test dataset, with higher values being better. As always, we also want to keep an eye on memory usage. When plotting the Pareto Frontier of these two metrics, we find that LoRA is below that frontier. Let's get concrete numbers: LoRA achieves a similarity score of 0.697 whereas OFT achieves 0.708; in terms of memory, LoRA requires 9.97 GB, and OFT requires 9.01 GB. Therefore, OFT strictly dominates LoRA on these metrics.

*Test accuracy vs memory usage tradeoff of fine-tuning FLUX.2-klein-base-4B and evaluating it on the test set. Other PEFT techniques like OFT beat LoRA in terms of test score and lower memory usage.*

Of course, you should also check the other PEFT methods that are close to the Pareto frontier, as metrics can be subject to small variations due to randomness. Also, you should explore other metrics: is runtime performance important to you or do you care about the size of the checkpoints? Choose the relevant metric from the dropdown and the picture can change considerably. For the image generation benchmark, do inspect the generated sample images to get a vibe of the fine-tuned model's capability.

Limitations

Objection: But the benchmarks favor one method over another!

One criticism that could be leveled at the PEFT benchmarks is that the choice of hyper-parameters may favor one technique over another. This is true, doing an exhaustive and fair hyper-parameter sweep with this many techniques is difficult. It is, however, very easy for everyone to contribute their own experiments to PEFT: If you believe that a specific PEFT technique can be improved by choosing different hyper-parameters, create a PR! We added instructions on how to do that. In a similar vein, if you want to contribute a completely new benchmark, reach out to us to discuss your idea.

Another problem with the benchmarks is that they may not fully reflect the capabilities of a specific PEFT technique. We make it possible to compare the techniques along many different dimensions and discover the best ones according to these tradeoffs. But it's impossible to capture all facets this way. For instance, one PEFT technique called Cartridges (https://huggingface.co/docs/peft/package_reference/cartridges) was developed to compress long prompts, which is not measured in the benchmarks. Other factors can also influence the choice, for instance:

  • Depending on the PEFT technique, only certain layer types can be modified.
  • Not all PEFT techniques support quantized base models (but we actively expand the support in PEFT).
  • Some PEFT techniques allow merging of the adapter to reduce runtime overhead but others don't.

The benchmarks cannot fully lift the responsibility to do your research, but they can be reasonable pointers.

*Click on the image to peruse the PEFT shop to find the best PEFT technique for you. It allows you to browse not only by benchmark metrics but also by capabilities, like quantization support.*

Objection: But llama.cpp/vLLM/... only supports LoRA

A limitation of using a PEFT technique other than LoRA is that they don't get the broad support in downstream packages that LoRA sees. For example, if you want to serve the model using vLLM, only LoRA checkpoints can be loaded. Thankfully, PEFT now supports converting other adapters into LoRA. That way, you can convert a non-LoRA checkpoint into LoRA and use it in vLLM or other downstream packages.

To test this, we converted an image adapter using the GraLoRA technique into a LoRA checkpoint. The test scores were virtually identical after conversion (similarity 0.702 → 0.694, 0.260 → 0.269). Below are test images for the prompt “sks cat at the beach”:

At the moment, we haven't implemented conversion for all PEFT techniques, but if there is demand, we will expand the support.

Conclusion and what you can do

While working on the PEFT package, we noticed that LoRA has a lot of momentum behind it, even though other PEFT techniques are potentially better. Therefore, we set out to add benchmarks to PEFT that could paint a more objective picture of how well different PEFT techniques perform on different metrics.

Given the results we found, we can confidently conclude that LoRA is not a bad choice at all, but there are potentially better choices. Especially when checking the image generation benchmark, LoRA is beaten by other techniques. We discussed that besides metrics, other considerations must be taken into account when choosing the right PEFT technique. However, even then, we are pushing PEFT further to achieve feature parity between LoRA and those other techniques.

Our journey is far from finished, we want to extend and improve the existing benchmarks, and we also plan to add more benchmarks in the future. We ensured that it is easy for the community to contribute, so if this is something you would like to do, please open an issue on the PEFT repository and let us know how you would like to contribute.

If you take away only one thing from this article, it is that LoRA should not be the automatic default when choosing a PEFT technique for your use case. Given the unified API provided by PEFT, changing from one PEFT technique to another is as easy as switching one config in your code. And even if you stick with LoRA, check out all the variants that are supported in PEFT: DoRA, rs-LoRA, LoRA-FA etc. Give these other techniques a try and you might be pleasantly surprised.

*Example: Changing from LoRA to OFT using PEFT*

code
from transformers import AutoModelForCausalLM
-from peft import LoraConfig, get_peft_model
+from peft import OFTConfig, get_peft_model

base_model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3.2-3B", dtype="bfloat16")
-config = LoraConfig(target_modules=["q_proj", "v_proj"])
+config = OFTConfig(target_modules=["q_proj", "v_proj"])
model = get_peft_model(base_model, config)
この記事をシェア

関連記事

Hugging Face Blog★42026年6月19日 03:13

MosaicLeaks:研究エージェントは秘密を守れるか?

Hugging Face は、AI エージェントが機密情報を漏洩するリスクを検証する「MosaicLeaks」という評価フレームワークを発表した。

Latent Space2026年6月20日 17:06

[AINews] 今日特に大きな出来事はありませんでした

Latent Space は、GLM 5.2 が依然として注目されていると指摘しつつ、AIE WF 2026 の通常チケットが月曜日に完売すると発表しました。同サイト購読者向けに限定割引を提供し、参加者には Warp や Datadog などからのスポンサークレジットも付与されます。

TechCrunch AI★42026年6月20日 01:01

米国がアンソロピックの「Fable 5」発売を禁止、しかし市場は動じず

米国政府は国家安全保障上の懸念から、アマゾンの研究者らがガードレール回避手法を発見したとして、アンソロピックに対し最新モデル「Fable 5」と「Mythos 5」の販売差し止めを命じた。サイバーセキュリティ研究者らはこの措置が危険だとする公開書簡に署名し、同社も他モデルでも同様の抜け道が存在すると指摘している。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む