#llm architecture のAIニュース

8件の記事

ハイブリッドモデルはどのトークンをより正確に予測するか？

Allen AI は Olmo 3 と Olmo Hybrid の分析により、ハイブリッドモデルが意味を持つ文脈依存トークンの予測でトランスフォーマーを上回り、一方トランスフォーマーは逐語的コピーにおいて優位性を維持することを示した。

MarkTechPost は、デフォルトで状態を持たない大規模言語モデルを、継続的な学習と行動が可能なシステムに変えるための「エージェント記憶」の重要性を解説し、その実装に必要な 7 つの記憶タイプを技術的に紹介している。

Google が、Gemma 4 アーキテクチャを基盤に拡散モデルに基づく並列生成を採用した実験的テキスト生成モデル「DiffusionGemma」を開発し、消費者用 GPU でも動作する高速推論と双方向文脈理解を実現したと発表した。

研究者らが、標準的なトランスフォーマーの「時間的浅さ」を克服する新アーキテクチャ「再帰型トランスフォーマー」を発表した。層ごとの再帰性により、各層が内部メモリを継続的に更新し、大規模な層スタックなしで複雑な反復推論を実現する。

研究者らは26モデルからなる制御されたスイート「OlmPool」を作成し、学習データや拡張レシピを一定に保った場合でも、アーキテクチャ上の微小な選択が積み重なることで長文コンテキストの拡張が困難になることを示した。

サイモン・ウィリソン氏が、LLMを拡張するソフトウェアであるコーディングエージェントの内部動作を解説し、適切な活用方法を提案している。

Sebastian Raschka氏は、DeepSeek V3とGLM-5を含む現代のLLMアーキテクチャを比較し、各モデルの設計特徴と技術的進化を解説している。

著者は、画像キャプションや視覚的質問応答といったビジョン言語タスクにおいて、従来の物体検出ネットワークに依存する手法ではなく、事前学習済みモデルを拡張するアプローチに焦点を当てて解説している。