Sebastian Raschka の最新記事

研究

21件の記事

現代LLMにおけるアテンション変種のビジュアルガイド

著者が過去数年にわたり解説してきたLLMアーキテクチャを収集・整理し、45種類のアーキテクチャギャラリーを作成した。

Sebastian Raschka·3月22日

オープンウェイトLLMの春の夢:2026年1月から2月の10のアーキテクチャ

2026年春にリリースされた10のオープンウェイトLLMをまとめ比較。オープンソースAIモデルの進展を示す。

Sebastian Raschka·2月25日·★★★★

LLM推論向上のための推論時スケーリング手法の分類

大規模言語モデルの推論精度向上を目的とした、推論時に適用可能な各種スケーリング手法の分類と、最近の関連研究の概要について解説しています。

Sebastian Raschka·1月24日

2025年の大規模言語モデルの現状:進歩、課題、予測

DeepSeek R1やRLVRから推論時のスケーリング、ベンチマーク、アーキテクチャまで、2025年のLLMの進展と2026年予測を概観。

Sebastian Raschka·12月30日

LLM研究論文:2025年リスト(7月から12月)

有料購読者向けに、2025年後半の注目すべきLLM研究論文リストを紹介する記事。著者が厳選した論文をまとめている。

Sebastian Raschka·12月30日

DeepSeek V3からV3.2へ:アーキテクチャ、スパースアテンション、RLアップデート

DeepSeekの主力オープンウェイトモデルが、アーキテクチャの改良、スパースアテンションの導入、強化学習による更新を通じて進化した過程を解説。

Sebastian Raschka·12月3日

標準的な大規模言語モデルを超えて

線形アテンション・ハイブリッド、テキスト拡散、コード世界モデル、小型再帰型トランスフォーマーなど、次世代AI技術の新たなアプローチを紹介。

Sebastian Raschka·11月4日

LLM評価の4つの主要アプローチを理解する(基礎から)

多肢選択ベンチマーク、検証器、リーダーボード、LLMジャッジの4つの評価手法を、コード例を交えて解説。

Sebastian Raschka·10月5日

Qwen3をゼロから理解し実装する

主要なオープンソースLLMの一つであるQwen3について、詳細な解説と実装方法を紹介します。

Sebastian Raschka·9月6日

GPT-2からgpt-ossへ:アーキテクチャの進化を分析

GPT-2からgpt-ossまでのアーキテクチャの進歩を分析し、Qwen3との比較を考察する。

Sebastian Raschka·8月9日

The Big LLM Architecture Comparison

Sebastian Raschka·7月19日

LLM Research Papers: The 2025 List (January to June)

Sebastian Raschka·7月1日

スクラッチから理解するLLMのKVキャッシュの仕組みと実装

著者が、LLMの推論効率化に重要なKVキャッシュの概念と、スクラッチでの実装方法を解説している。

Sebastian Raschka·6月17日·★★★★

一からコーディングするLLM:完全コース

著者が、LLMの仕組みを理解する最良の方法として、LLMのコーディング方法に関する基礎的な内容を共有する。昨年共有した短縮版ワークショップが好評だったため、約5倍の長さで詳細な内容(約15時間)を提供する。

Sebastian Raschka·5月10日

LLM推論のための強化学習の現状

OpenAIがGPT-4.5を、MetaがLlama 4をリリースしたが、従来型モデルのため反応は控えめだった。一方、xAIやAnthropicは強化学習による推論機能を強化している。

Sebastian Raschka·4月19日·★★★★

スクラッチからの推論入門:第1章

著者がLLMにおける推論の仕組みについての新著を執筆中であり、購読者向けに第1章を公開した。本章ではLLMの推論の基本概念と推論時サンプリングなどの手法を概説している。

Sebastian Raschka·3月29日

LLM推論モデル推論の現状

研究者らが、大規模言語モデル(LLM)の推論能力を向上させるため、推論時の計算スケーリング、強化学習、教師ありファインチューニング、蒸留などの新戦略を多数発表した。

Sebastian Raschka·3月8日·★★★★

推論LLMの理解

この記事は、推論モデルを構築する4つの主要なアプローチを説明し、LLMに推論能力を付与する方法を解説している。著者は2024年にLLM分野の専門化が進み、RAGからコードアシスタントまで多様な応用が登場したと指摘し、2025年にはこの傾向がさらに加速すると予測している。

Sebastian Raschka·2月5日

2024年の注目すべきAI研究論文(パート2)

著者が2024年下半期(7月〜12月)のAI研究をまとめ、専門家混合モデルや大規模言語モデルの精度に関する新たなスケーリング法則など多様なトピックを紹介している。

Sebastian Raschka·1月15日

注目すべき2024年のAI研究論文(第1部)

著者が2024年のAI研究のハイライト記事の草稿を完成させた。今年は特に生産的な年であり、専門家混合モデルから新しいLLMスケーリング則まで多様なトピックを扱うが、本記事ではLLM研究に焦点を当てている。

Sebastian Raschka·12月31日·★★★★

LLM研究論文:2024年リスト

著者が2024年のLLM研究のハイライトをまとめた記事を計画していたが、事故で負傷したため作業が遅れている。代わりに、2024年のLLM研究論文リストを共有する予定である。

Sebastian Raschka·12月8日