Sebastian Raschka の最新記事
研究21件の記事
現代LLMにおけるアテンション変種のビジュアルガイド
著者が過去数年にわたり解説してきたLLMアーキテクチャを収集・整理し、45種類のアーキテクチャギャラリーを作成した。
オープンウェイトLLMの春の夢:2026年1月から2月の10のアーキテクチャ
2026年春にリリースされた10のオープンウェイトLLMをまとめ比較。オープンソースAIモデルの進展を示す。
LLM推論向上のための推論時スケーリング手法の分類
大規模言語モデルの推論精度向上を目的とした、推論時に適用可能な各種スケーリング手法の分類と、最近の関連研究の概要について解説しています。
2025年の大規模言語モデルの現状:進歩、課題、予測
DeepSeek R1やRLVRから推論時のスケーリング、ベンチマーク、アーキテクチャまで、2025年のLLMの進展と2026年予測を概観。
LLM研究論文:2025年リスト(7月から12月)
有料購読者向けに、2025年後半の注目すべきLLM研究論文リストを紹介する記事。著者が厳選した論文をまとめている。
DeepSeek V3からV3.2へ:アーキテクチャ、スパースアテンション、RLアップデート
DeepSeekの主力オープンウェイトモデルが、アーキテクチャの改良、スパースアテンションの導入、強化学習による更新を通じて進化した過程を解説。
標準的な大規模言語モデルを超えて
線形アテンション・ハイブリッド、テキスト拡散、コード世界モデル、小型再帰型トランスフォーマーなど、次世代AI技術の新たなアプローチを紹介。
LLM評価の4つの主要アプローチを理解する(基礎から)
多肢選択ベンチマーク、検証器、リーダーボード、LLMジャッジの4つの評価手法を、コード例を交えて解説。
Qwen3をゼロから理解し実装する
主要なオープンソースLLMの一つであるQwen3について、詳細な解説と実装方法を紹介します。
GPT-2からgpt-ossへ:アーキテクチャの進化を分析
GPT-2からgpt-ossまでのアーキテクチャの進歩を分析し、Qwen3との比較を考察する。
The Big LLM Architecture Comparison
LLM Research Papers: The 2025 List (January to June)
スクラッチから理解するLLMのKVキャッシュの仕組みと実装
著者が、LLMの推論効率化に重要なKVキャッシュの概念と、スクラッチでの実装方法を解説している。
一からコーディングするLLM:完全コース
著者が、LLMの仕組みを理解する最良の方法として、LLMのコーディング方法に関する基礎的な内容を共有する。昨年共有した短縮版ワークショップが好評だったため、約5倍の長さで詳細な内容(約15時間)を提供する。
LLM推論のための強化学習の現状
OpenAIがGPT-4.5を、MetaがLlama 4をリリースしたが、従来型モデルのため反応は控えめだった。一方、xAIやAnthropicは強化学習による推論機能を強化している。
スクラッチからの推論入門:第1章
著者がLLMにおける推論の仕組みについての新著を執筆中であり、購読者向けに第1章を公開した。本章ではLLMの推論の基本概念と推論時サンプリングなどの手法を概説している。
LLM推論モデル推論の現状
研究者らが、大規模言語モデル(LLM)の推論能力を向上させるため、推論時の計算スケーリング、強化学習、教師ありファインチューニング、蒸留などの新戦略を多数発表した。
推論LLMの理解
この記事は、推論モデルを構築する4つの主要なアプローチを説明し、LLMに推論能力を付与する方法を解説している。著者は2024年にLLM分野の専門化が進み、RAGからコードアシスタントまで多様な応用が登場したと指摘し、2025年にはこの傾向がさらに加速すると予測している。
2024年の注目すべきAI研究論文(パート2)
著者が2024年下半期(7月〜12月)のAI研究をまとめ、専門家混合モデルや大規模言語モデルの精度に関する新たなスケーリング法則など多様なトピックを紹介している。
注目すべき2024年のAI研究論文(第1部)
著者が2024年のAI研究のハイライト記事の草稿を完成させた。今年は特に生産的な年であり、専門家混合モデルから新しいLLMスケーリング則まで多様なトピックを扱うが、本記事ではLLM研究に焦点を当てている。
LLM研究論文:2024年リスト
著者が2024年のLLM研究のハイライトをまとめた記事を計画していたが、事故で負傷したため作業が遅れている。代わりに、2024年のLLM研究論文リストを共有する予定である。