#diffusion models のAIニュース

12件の記事

DFlash、NVIDIA Blackwell で最大 15 倍のスループット向上を実現する並列トークンブロックドラフト方式を提案

研究チームが開発した DFlash は、推論のボトルネックである逐次生成を改善し、小規模モデルで未来のトークンを並列にドラフトして大規模モデルが検証する手法により、NVIDIA Blackwell 上で最大 15 倍のスループット向上を実現しました。

効率的な軽量画像インペイントフレームワーク「Moebius」が、119 億パラメータの産業用モデル FLUX.1-Fill-Dev と同等以上の生成品質を達成し、推論時間を 15 倍以上短縮した。

NVIDIA は、開発者が NVIDIA のプラットフォーム上で DiffusionGemma モデルを実行し、高速なテキスト生成を実現する方法を公開した。

Tianhe Wu 氏ら研究者が、画像生成モデル「Qwen-Image-Flash」を発表し、高速な画像処理を実現する技術の詳細を解説している。

マイクロソフトは OpenAI との独占ライセンス契約を修正し、同社が他クラウドでモデル販売できる権利を得た。その上で、拡散型言語モデルを手掛ける企業「Inception」の買収を静かに模索している。

研究者らは、既存の大規模言語モデル（LLM）に潜在拡散モデルの特性を組み合わせた「LaDiR」という新たな推論フレームワークを開発しました。この手法は多様な推論経路を並列生成し、計画と修正を包括的に行うことで、精度や解釈性を向上させます。

研究者らは、訓練時に経験していないオブジェクト数を持つ画像生成能力（長さ一般化）について、制御された環境で検証した。その結果、場合によっては達成可能だが常に成功するわけではないことが示され、この能力の背後にあるメカニズムが不明確であることが確認された。

動画拡散モデルのコンテキスト長増大に対応するため、Ulysses手法を用いたコンテキスト並列処理が提案された。これはシーケンス全体をシャードし、高密度アテンションと高スループット通信を両立させる。

研究者がテキストから画像生成モデルの学習設計を検証し、アブレーション研究を通じて効果的な学習手法を特定した。

タンパク質折りたたみモデルを潜在拡散技術と組み合わせ、新しい生成タスクに応用する研究について。

画像合成で成功した拡散モデルが、動画生成に応用され始めている。動画は1フレームの画像を含むため時間的整合性が求められ、技術的に困難な課題である。

拡散モデルは、複雑なデータ分布を学習可能な新しい生成モデルである。高品質な画像生成が可能で、SOTAのGANと競合する性能を示している。