Sebastian Raschka の最新記事

研究

24件の記事

LLM アーキテクチャの最近の動向：KV シェアリング、mHC、圧縮アテンションについて

Sebastian Raschka は、推論モデルやエージェントワークフローの増加に伴い、コンテキスト効率を重視する新しい LLM アーキテクチャが注目されていると指摘し、KV キャッシュサイズ削減のための KV シェアリングや mHC などの技術動向を紹介している。

Sebastian Raschka·5月16日·★★★★

LLMアーキテクチャを理解するための私のワークフロー

著者が記事や講演、LLM-Galleryで使用するLLMアーキテクチャの図面作成ワークフローを公開した。公式技術文書から始めるが、最近の論文は詳細不足のため、公開されたモデル重みから推測する手法を説明している。

Sebastian Raschka·4月18日

コーディングエージェントの構成要素

著者がコーディングエージェントとエージェントハーネスの全体設計を解説する。エージェントの仕組みと実践的な構成要素について、読者からの質問を踏まえて参照資料として提供する。

Sebastian Raschka·4月4日

現代LLMにおけるアテンション変種のビジュアルガイド

著者が過去数年にわたり解説してきたLLMアーキテクチャを収集・整理し、45種類のアーキテクチャギャラリーを作成した。

Sebastian Raschka·3月22日

オープンウェイトLLMの春の夢：2026年1月から2月の10のアーキテクチャ

2026年春にリリースされた10のオープンウェイトLLMをまとめ比較。オープンソースAIモデルの進展を示す。

Sebastian Raschka·2月25日·★★★★

LLM推論向上のための推論時スケーリング手法の分類

大規模言語モデルの推論精度向上を目的とした、推論時に適用可能な各種スケーリング手法の分類と、最近の関連研究の概要について解説しています。

Sebastian Raschka·1月24日·★★★★

2025年の大規模言語モデルの現状：進歩、課題、予測

DeepSeek R1やRLVRから推論時のスケーリング、ベンチマーク、アーキテクチャまで、2025年のLLMの進展と2026年予測を概観。

Sebastian Raschka·12月30日·★★★★★

LLM研究論文：2025年リスト（7月から12月）

有料購読者向けに、2025年後半の注目すべきLLM研究論文リストを紹介する記事。著者が厳選した論文をまとめている。

Sebastian Raschka·12月30日·★★★★

DeepSeek V3からV3.2へ：アーキテクチャ、スパースアテンション、RLアップデート

DeepSeekの主力オープンウェイトモデルが、アーキテクチャの改良、スパースアテンションの導入、強化学習による更新を通じて進化した過程を解説。

Sebastian Raschka·12月3日·★★★★

標準的な大規模言語モデルを超えて

線形アテンション・ハイブリッド、テキスト拡散、コード世界モデル、小型再帰型トランスフォーマーなど、次世代AI技術の新たなアプローチを紹介。

Sebastian Raschka·11月4日·★★★★

LLM評価の4つの主要アプローチを理解する（基礎から）

多肢選択ベンチマーク、検証器、リーダーボード、LLMジャッジの4つの評価手法を、コード例を交えて解説。

Sebastian Raschka·10月5日·★★★★

Qwen3をゼロから理解し実装する

主要なオープンソースLLMの一つであるQwen3について、詳細な解説と実装方法を紹介します。

Sebastian Raschka·9月6日·★★★★

GPT-2からgpt-ossへ：アーキテクチャの進化を分析

GPT-2からgpt-ossまでのアーキテクチャの進歩を分析し、Qwen3との比較を考察する。

Sebastian Raschka·8月9日·★★★★

大規模言語モデル（LLM）アーキテクチャの比較

Sebastian Raschka氏は、DeepSeek V3とGLM-5を含む現代のLLMアーキテクチャを比較し、各モデルの設計特徴と技術的進化を解説している。

Sebastian Raschka·7月19日·★★★★

LLM研究論文：2025年リスト（1月〜6月）

Sebastian Raschka博士は、2025年1月から6月にかけて発表された200本以上のLLM研究論文をテーマ別に整理したリストを公開している。

Sebastian Raschka·7月1日

スクラッチから理解するLLMのKVキャッシュの仕組みと実装

著者が、LLMの推論効率化に重要なKVキャッシュの概念と、スクラッチでの実装方法を解説している。

Sebastian Raschka·6月17日·★★★★

一からコーディングするLLM：完全コース

著者が、LLMの仕組みを理解する最良の方法として、LLMのコーディング方法に関する基礎的な内容を共有する。昨年共有した短縮版ワークショップが好評だったため、約5倍の長さで詳細な内容（約15時間）を提供する。

Sebastian Raschka·5月10日

LLM推論のための強化学習の現状

OpenAIがGPT-4.5を、MetaがLlama 4をリリースしたが、従来型モデルのため反応は控えめだった。一方、xAIやAnthropicは強化学習による推論機能を強化している。

Sebastian Raschka·4月19日·★★★★

スクラッチからの推論入門：第1章

著者がLLMにおける推論の仕組みについての新著を執筆中であり、購読者向けに第1章を公開した。本章ではLLMの推論の基本概念と推論時サンプリングなどの手法を概説している。

Sebastian Raschka·3月29日

LLM推論モデル推論の現状

研究者らが、大規模言語モデル（LLM）の推論能力を向上させるため、推論時の計算スケーリング、強化学習、教師ありファインチューニング、蒸留などの新戦略を多数発表した。

Sebastian Raschka·3月8日·★★★★

推論LLMの理解

この記事は、推論モデルを構築する4つの主要なアプローチを説明し、LLMに推論能力を付与する方法を解説している。著者は2024年にLLM分野の専門化が進み、RAGからコードアシスタントまで多様な応用が登場したと指摘し、2025年にはこの傾向がさらに加速すると予測している。

Sebastian Raschka·2月5日

2024年の注目すべきAI研究論文（パート2）

著者が2024年下半期（7月〜12月）のAI研究をまとめ、専門家混合モデルや大規模言語モデルの精度に関する新たなスケーリング法則など多様なトピックを紹介している。

Sebastian Raschka·1月15日

注目すべき2024年のAI研究論文（第1部）

著者が2024年のAI研究のハイライト記事の草稿を完成させた。今年は特に生産的な年であり、専門家混合モデルから新しいLLMスケーリング則まで多様なトピックを扱うが、本記事ではLLM研究に焦点を当てている。

Sebastian Raschka·12月31日·★★★★

LLM研究論文：2024年リスト

著者が2024年のLLM研究のハイライトをまとめた記事を計画していたが、事故で負傷したため作業が遅れている。代わりに、2024年のLLM研究論文リストを共有する予定である。

Sebastian Raschka·12月8日