ネイティブ多モーダルモデル(GitHub リポジトリ)
TLDR AI が紹介する GitHub リポジトリは、従来のモジュラー型マルチモーダルモデルから、複数の入力を統合変換器空間で処理する「ネイティブ・マルチモーダル・モデリング(NMM)」への構造的転換を体系的に分類・追跡している。
キーポイント
NMM の定義と目的
従来の後期融合やグラフト型構成の限界を克服し、複数のモダリティを統合されたトランスフォーマー空間または共通バックボーン内で本質的に統合する「ネイティブ・マルチモーダル・モデリング」への移行を追跡する。
アーキテクチャ分類の枠組み
統合深度(中期融合 vs 早期融合)と機能入出力の二軸に基づき、M2T(多対テキスト)、M2G(多対特定モダリティ)、M2M(多対多)という3つの主要パラダイムに体系化されている。
M2T の論理的推論への応用
マルチモーダル入力を言語ストリームに grounding することで、論理的推論を可能にするネイティブなスケーリングフレームワークが注目されており、後期融合のベースラインとの比較が行われている。
オープンソースによる生態系の構築
このリポジトリは GitHub 上で運営され、最新の画期的な研究を星付け(Star)で追跡可能であり、見落としのあるモデルに対する PR を歓迎するコミュニティ主導の形式をとっている。
Interleaved Data Curricula
ウェブ規模のテキスト、音声波形、動画ストリームを組み合わせた事前学習トークン混合データのカリキュラムを採用しています。
Multi-Objective Loss Recipes
自己回帰的な次トークン予測と拡散ステップを統合し、連続体と離散体の両方の目的を統一する損失関数のレシピを策定しています。
Full-Duplex Orchestration
リアルタイム相互作用(100ms 未満)を実現するために、動的な KV キャッシュの退去とマルチスケールアテンションパターンを活用した完全双方向オーケストレーションを実装しています。
影響分析・編集コメントを表示
影響分析
この記事は、マルチモーダル AI の技術的潮流が「後期融合」から「ネイティブ統合」へと移行していることを示す重要な指針となります。研究者やエンジニアにとって、最新のアーキテクチャ動向を体系的に把握し、次世代モデルの設計思想を理解するための重要なリソースとなります。
編集コメント
従来のマルチモーダルモデルの限界を打破する「ネイティブ」なアプローチへの注目が高まる中、このリポジトリは技術トレンドを可視化する優れたインデックスとなっています。
**
このリポジトリは、構造的な移行を体系的に追跡しています。それは、生きた感覚信号に対する根本的な盲目性を抱える後期融合/接ぎ木構成である「モジュラーアセンブリ」から、複数のモダリティが *統一されたトランスフォーマー空間* または *共通バックボーン* に本質的に統合される「ネイティブ多モーダルモデリング (NMM)」への移行です。
⭐ このリポジトリをスターして、最新の画期的な作品を追跡してください。見落としがある可能性のあるモデルについては、PR を歓迎します。
🗺️ NMM 建築分類法
私たちは、統合深度(中期融合 vs. 早期融合)と機能的入出力の二重性に基づく二軸レンズを通じて、NMM エコシステムを形式化しています。
#
パラダイム
入力 → 出力
核となるアイデア
🟦
M2T — マルチからテキストへ
多モーダル → テキスト
推論のために、クロスモーダル入力を純粋に言語的な応答に grounded します。
🟩
M2G — マルチからターゲットへ
多モーダル → モダリティ固有
ネイティブ表現を通じてモダリティ固有の出力を直接合成し、時間的・音響的一貫性を達成します。
🟪
M2M — マルチからマルチへ
多モーダル → 多モーダル
理解と生成が単一のネットワーク内で相互的な射影として自然に共存する統一されたパラダイムです。
🟦 1. マルチからテキストへ (M2T) ユニモーダル生成
**
*論理的推論のためにクロスモーダル入力を言語ストリームに grounded するネイティブスケーリングフレームワーク。*
🧱 後期融合ベースライン参照
*浅いプロジェクタを介してモジュラー的に組み立てられ、生きた感覚信号に対して盲目です。
**
- LLaVA [Liu et al., 2023] — 💻 GitHub · 📄 Paper
- DeepSeek-VL [Lu et al., 2024] — 💻 GitHub · 📄 Paper
- Qwen-Image [Wu et al., 2025] — 💻 GitHub · 🌐 Blog
🔗 Mid-Fusion (Naturally Interacted Regime)
*Foundational pioneers maintaining explicit, modality-aware boundaries.*
- CogVLM [Wang et al., 2023] — 💻 GitHub
- Qwen-Audio [Chu et al., 2023] — 💻 GitHub · 🌐 Project Page
*Massive state-of-the-art evolved mid-fusion architectures:*
- Qwen2.5-VL [Qwen Team, 2025] — 💻 GitHub · 🌐 Blog
- Qwen3-VL [Qwen Team, 2025] — 💻 GitHub · 📄 Paper
- InternVL-3.5 [Chen et al., 2025] — 💻 GitHub · 🤗 HF Collection
*Scale-driven industrial mid-fusion implementations:*
- GLM-4.5V / GLM-V [ZhipuAI, 2025–2026] — 💻 GitHub · 🤗 HF Model
- Kimi K2 / K2.5 [Moonshot AI, 2025–2026] — 🌐 Project Page · 💻 GitHub Org
🧬 Dense / Native M2T Scaling
- MiniCPM-V 4.x [Yu et al., 2025] — 💻 GitHub
- Nemotron 3 Nano Omni [NVIDIA, 2026] — 💻 GitHub · 📄 Paper
- MiMo-V2.5 [Xiaomi MiMo Team, 2026] — 💻 GitHub · 🌐 Project Page
- Gemma-4 / Qwen3.6 — Timeline benchmarks driving advanced contextual reasoning (forthcoming).
🟩 2. Multi-to-Target (M2G) Scenario-based Generation
*Bypassing traditional post-hoc decoders to synthesize photorealistic spatiotemporal physics or continuous speech directly.*
🎬 Advanced Video / World Simulators
- Wan 2.2-T2V-A14B [Wan Team, 2025] — 🤗 HF Model — Unifies video patches into native generation spaces with continuous physics.
- HunyuanVideo & HunyuanVideo-1.5 [Tencent, 2024–2025] — 💻 GitHub · 🤗 HF Model (1.5)
- Kling-Omni [Kuaishou, 2025] — 🌐 Project Page
🎙️ Speech-Centric Native Frameworks
- OmniVoice [Zhu et al., 2026] — 💻 GitHub · 🌐 Project Page
- MiniCPM-o 2.6 / 4.5 [OpenBMB, 2025–2026] — 🤗 HF Model · 💻 GitHub
- Seedream 3.0 [Gao et al., 2025] — 📄 Tech Report · 🌐 Project Page
- HiDream-I1 — 💻 GitHub
📅 Timeline Milestone Generators
- LTX-2 / LTX-Video [Lightricks, 2024–2026] — 💻 GitHub
- Ming-Flash-Omni [Ant Group / inclusionAI, 2025] — 💻 GitHub · 📄 Paper
🟪 3. Multi-to-Multi (M2M) Symmetric Modeling
*Omni-directional unified spaces establishing a symmetric paradigm where comprehension and generation natively coexist.*
🔥 Early-Fusion (Native Convergent Regime)
*Born-native designs treating all modalities equivalently via one unified backbone & embedding space.*
- Transfusion [Zhou et al., 2024] — 📄 Paper
- Chameleon ★ [Meta AI, 2024] — 💻 GitHub · 📄 Paper
- AnyGPT ★ [Zhan et al., 2024] — 💻 GitHub · 📄 Paper
🔮 Early Unified Predictors
- Moshi ★ [Défossez et al., 2024] — 💻 GitHub · 📄 Paper — Real-time conversational audio-text dual-stream processing.
- Emu3 / Emu3.5 ★ [BAAI, 2024–2025] — 🌐 Project Page · 📄 Paper — Next-token sequence prediction unifying understanding and synthesis.
🧩 Interleaved Sequence Modeling
- BAGEL-7B [ByteDance Seed Team, 2025] — 🤗 HF Model · 🌐 Project Page · 📄 Paper
- OneCAT-3B [Meituan & SJTU, 2025] — 💻 GitHub · 🤗 HF Model
- Show-o2-7B [Xie et al., 2025] — 💻 GitHub · 📄 Paper
🌌 Bidirectional Unification Frontiers
*Collapsing representation boundaries.*
- Janus-Pro ★ [DeepSeek-AI, 2025] — 🤗 HF Model · 📄 Paper
- Llama-4 Scout / Maverick [Meta AI, 2025] — 🌐 Llama Site — Advanced interleaved-scale exploration.
- LLaDA-V [Ml-GSAI, 2025] — 💻 GitHub · 🌐 Project Page · 📄 Paper
- Lance [ByteDance, 2026] — 📄 Paper — Leading edge of complete native convergence.
- TUNA-2 [Liu et al., 2026] / Mamoda 2.5 [Shi et al., 2026] / LongCat-Next — Forthcoming.
★ *Denotes early exploratory or foundational dual-regime architectures.*
🛠️ The Technical Roadmap Dimensions
Following the systemic structure detailed across Sections §3–§7** of the roadmap paper, the core components of the NMM lifecycle are curated below.
🧩 1. Architecture · §3
- Integration Depth Mapping — Structural mechanics of joint multimodal backbones vs. single unified transformer spaces.
- Input–Output Decoupling — Eliminating modality-aware boundaries & shallow projectors.
📊 2. Data Curriculum · §4
- Interleaved Data Curricula — Pre-training token mixtures combining web-scale text, audio waves, & video streams.
- Post-Training Engineering — Multi-modal instruction tuning & alignment token datasets.
🎯 3. Training Strategies · §5
- マルチ目的損失レシピ — 連続・離散目標の統合(自己回帰次期トークン予測+拡散ステップ)。
- スケーリングダイナミクス — 1T+ モデルの最前線における勾配安定性を維持するためのトークン割り当て戦略の計算。
⚡ 4. 推論・展開 · §6
- フルデュプレックスオーケストレーション — リアルタイムインタラクション(<100 ms)のための動的 KV キャッシュ退去とマルチスケールアテンションパターン。
- ハードウェアネイティブコンパイル — 統一されたクロスモーダルトークンルーティングのための分散 CUDA 計算カーネル。
🧪 5. 評価ベンチマーク · §7
- 対称的評価行列 — ターゲットモダリティの崩壊に陥ることなく、インターリーブされたマルチモーダルシーケンスを検査できるシステムをベンチマークするもの。
🤝 コントリビューション
コントリビューションは大歓迎です!注目すべきネイティブマルチモーダルモデルが欠落している場合や、古いリンクを見つけた場合は、Issue を開くかプルリクエストを送ってください。
推奨されるエントリー形式は以下の通りです:
- <モデル名> [<著者 / チーム>, <年>] — `💻 GitHub` · `📄 Paper`
✍️ 引用
当社の形式化、分類体系、またはロードマップフレームワークがあなたの研究に役立った場合は、以下の決定版論文を引用してください:
@article{TencentYoutuLab2026toward,
title = {Toward Native Multimodal Modeling: A Roadmap},
author = {Siyu An and Junru Lu and Junnan Dong and others},
journal = {arXiv preprint},
year = {2026}
}
NMM-Roadmap コミュニティによって維持されています · オープンなマルチモーダル研究のために ❤️ を込めて作成されました。
原文を表示
This repository systematically tracks the structural transition from Modular Assembly — late-fusion / grafted compositions that suffer from a fundamental blindness to raw sensory signals — to Native Multimodal Modeling (NMM), where multiple modalities are intrinsically integrated into a unified transformer space or joint backbone.
⭐ Star this repo to track the latest landmark works. PRs are warmly welcomed for any model we may have missed.
🗺️ The NMM Architectural Taxonomy
We formalize the NMM ecosystem through a dual-dimensional lens based on Integration Depth (mid-fusion vs. early-fusion) and Functional Input–Output Duality:
#
Paradigm
Input → Output
Core Idea
🟦
M2T — Multi-to-Text
multimodal → text
Ground cross-modal inputs into purely linguistic responses for reasoning.
🟩
M2G — Multi-to-Target
multimodal → modality-specific
Direct synthesis of modality-specific outputs through native representations to achieve temporal & acoustic coherence.
🟪
M2M — Multi-to-Multi
multimodal → multimodal
A unified paradigm where understanding and generation naturally coexist as reciprocal projections within a single network.
🟦 1. Multi-to-Text (M2T) Unimodal Generation
Native scaling frameworks that ground cross-modal inputs into linguistic streams for logical reasoning.
🧱 Late-Fusion Baseline References
*Modularly assembled via shallow projectors; blind to raw sensory signals.*
- LLaVA [Liu et al., 2023] — 💻 GitHub · 📄 Paper
- DeepSeek-VL [Lu et al., 2024] — 💻 GitHub · 📄 Paper
- Qwen-Image [Wu et al., 2025] — 💻 GitHub · 🌐 Blog
🔗 Mid-Fusion (Naturally Interacted Regime)
*Foundational pioneers maintaining explicit, modality-aware boundaries.*
- CogVLM [Wang et al., 2023] — 💻 GitHub
- Qwen-Audio [Chu et al., 2023] — 💻 GitHub · 🌐 Project Page
*Massive state-of-the-art evolved mid-fusion architectures:*
- Qwen2.5-VL [Qwen Team, 2025] — 💻 GitHub · 🌐 Blog
- Qwen3-VL [Qwen Team, 2025] — 💻 GitHub · 📄 Paper
- InternVL-3.5 [Chen et al., 2025] — 💻 GitHub · 🤗 HF Collection
*Scale-driven industrial mid-fusion implementations:*
- GLM-4.5V / GLM-V [ZhipuAI, 2025–2026] — 💻 GitHub · 🤗 HF Model
- Kimi K2 / K2.5 [Moonshot AI, 2025–2026] — 🌐 Project Page · 💻 GitHub Org
🧬 Dense / Native M2T Scaling
- MiniCPM-V 4.x [Yu et al., 2025] — 💻 GitHub
- Nemotron 3 Nano Omni [NVIDIA, 2026] — 💻 GitHub · 📄 Paper
- MiMo-V2.5 [Xiaomi MiMo Team, 2026] — 💻 GitHub · 🌐 Project Page
- Gemma-4 / Qwen3.6 — Timeline benchmarks driving advanced contextual reasoning (forthcoming).
🟩 2. Multi-to-Target (M2G) Scenario-based Generation
Bypassing traditional post-hoc decoders to synthesize photorealistic spatiotemporal physics or continuous speech directly.
🎬 Advanced Video / World Simulators
- Wan 2.2-T2V-A14B [Wan Team, 2025] — 🤗 HF Model — Unifies video patches into native generation spaces with continuous physics.
- HunyuanVideo & HunyuanVideo-1.5 [Tencent, 2024–2025] — 💻 GitHub · 🤗 HF Model (1.5)
- Kling-Omni [Kuaishou, 2025] — 🌐 Project Page
🎙️ Speech-Centric Native Frameworks
- OmniVoice [Zhu et al., 2026] — 💻 GitHub · 🌐 Project Page
- MiniCPM-o 2.6 / 4.5 [OpenBMB, 2025–2026] — 🤗 HF Model · 💻 GitHub
- Seedream 3.0 [Gao et al., 2025] — 📄 Tech Report · 🌐 Project Page
- HiDream-I1 — 💻 GitHub
📅 Timeline Milestone Generators
- LTX-2 / LTX-Video [Lightricks, 2024–2026] — 💻 GitHub
- Ming-Flash-Omni [Ant Group / inclusionAI, 2025] — 💻 GitHub · 📄 Paper
🟪 3. Multi-to-Multi (M2M) Symmetric Modeling
Omni-directional unified spaces establishing a symmetric paradigm where comprehension and generation natively coexist.
🔥 Early-Fusion (Native Convergent Regime)
*Born-native designs treating all modalities equivalently via one unified backbone & embedding space.*
- Transfusion [Zhou et al., 2024] — 📄 Paper
- Chameleon ★ [Meta AI, 2024] — 💻 GitHub · 📄 Paper
- AnyGPT ★ [Zhan et al., 2024] — 💻 GitHub · 📄 Paper
🔮 Early Unified Predictors
- Moshi ★ [Défossez et al., 2024] — 💻 GitHub · 📄 Paper — Real-time conversational audio-text dual-stream processing.
- Emu3 / Emu3.5 ★ [BAAI, 2024–2025] — 🌐 Project Page · 📄 Paper — Next-token sequence prediction unifying understanding and synthesis.
🧩 Interleaved Sequence Modeling
- BAGEL-7B [ByteDance Seed Team, 2025] — 🤗 HF Model · 🌐 Project Page · 📄 Paper
- OneCAT-3B [Meituan & SJTU, 2025] — 💻 GitHub · 🤗 HF Model
- Show-o2-7B [Xie et al., 2025] — 💻 GitHub · 📄 Paper
🌌 Bidirectional Unification Frontiers
*Collapsing representation boundaries.*
- Janus-Pro ★ [DeepSeek-AI, 2025] — 🤗 HF Model · 📄 Paper
- Llama-4 Scout / Maverick [Meta AI, 2025] — 🌐 Llama Site — Advanced interleaved-scale exploration.
- LLaDA-V [Ml-GSAI, 2025] — 💻 GitHub · 🌐 Project Page · 📄 Paper
- Lance [ByteDance, 2026] — 📄 Paper — Leading edge of complete native convergence.
- TUNA-2 [Liu et al., 2026] / Mamoda 2.5 [Shi et al., 2026] / LongCat-Next — Forthcoming.
★ Denotes early exploratory or foundational dual-regime architectures.
🛠️ The Technical Roadmap Dimensions
Following the systemic structure detailed across Sections §3–§7 of the roadmap paper, the core components of the NMM lifecycle are curated below.
🧩 1. Architecture · §3
- Integration Depth Mapping — Structural mechanics of joint multimodal backbones vs. single unified transformer spaces.
- Input–Output Decoupling — Eliminating modality-aware boundaries & shallow projectors.
📊 2. Data Curriculum · §4
- Interleaved Data Curricula — Pre-training token mixtures combining web-scale text, audio waves, & video streams.
- Post-Training Engineering — Multi-modal instruction tuning & alignment token datasets.
🎯 3. Training Strategies · §5
- Multi-Objective Loss Recipes — Unifying continuous-discrete objectives (autoregressive next-token prediction + diffusion steps).
- Scaling Dynamics — Computed token-allocation strategies to maintain gradient stability at the 1T+ MoE frontier.
⚡ 4. Inference & Deployment · §6
- Full-Duplex Orchestration — Dynamic KV-cache eviction & multi-scale attention patterns for real-time interaction (<100 ms).
- Hardware-Native Compilation — Distributed CUDA compute kernels for unified cross-modal token routing.
🧪 5. Evaluation Benchmarks · §7
- Symmetric Evaluation Matrices — Benchmarking systems capable of examining interleaved multi-modal sequences without suffering from target-modality collapse.
🤝 Contributing
Contributions are very welcome! If a notable native multimodal model is missing or you find an outdated link, please open an Issue or send a Pull Request.
The preferred entry format is:
- **<Model Name>** [<Authors / Team>, <Year>] — [`💻 GitHub`](https://...) · [`📄 Paper`](https://...)✍️ Citation
If our formalization, taxonomy, or roadmap framework assists your research, please cite our definitive paper:
@article{TencentYoutuLab2026toward,
title = {Toward Native Multimodal Modeling: A Roadmap},
author = {Siyu An and Junru Lu and Junnan Dong and others},
journal = {arXiv preprint},
year = {2026}
}Maintained by the NMM-Roadmap community · Made with ❤️ for open multimodal research.
関連記事
確率的 KV ルーティング:適応型深層別キャッシュ共有を実現
研究者らは、トランスフォーマー言語モデルの推論コスト削減のため、時間軸以外の「深さ」次元に焦点を当てた新しい手法「確率的 KV ルーティング」を提案し、キーバリューキャッシュのメモリ使用量を大幅に削減できることを示した。
中国の AI 巨人 DeepSeek が投資家に対し「自社の人材を他社に引き抜くな」と通告
中国の AI 大手である DeepSeek は、投資家に対して同社の人材を競合他社へ引き抜かないよう要請したと報じられている。
未踏の地(6 分間の読了)
TLDR AI は、AI テクノロジーの未来や新たな可能性について考察した記事を発表しました。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み