#transformer のAIニュース
34件の記事
ハイブリッドモデルはどのトークンをより正確に予測するか?
Allen AI は Olmo 3 と Olmo Hybrid の分析により、ハイブリッドモデルが意味を持つ文脈依存トークンの予測でトランスフォーマーを上回り、一方トランスフォーマーは逐語的コピーにおいて優位性を維持することを示した。
低精度トレーニングにおけるトランスフォーマーベースモデルの最適化手法
NVIDIA は、低精度トレーニングでトランスフォーマーモデルを効率的に実行するための具体的な最適化手法をブログ記事で公開した。
2026 年に LLM エンジニアになるためのロードマップ
KDnuggets が、2026 年までに大規模言語モデルエンジニアとして活躍するための学習経路と必要なスキルを提示した。
LLM が実際にどのように動作するか(26 分読了)
TLDR AI は、大規模言語モデルの内部仕組みと動作原理を解説する記事を発表しました。
LLM を明確に解説する面白い論文 5 選
KDnuggets が、大規模言語モデル(LLM)の仕組みを分かりやすく説明する 5 つの有益な論文を紹介した。
10 年以上続く深層学習の訓練方法に終止符:サカナ・ラボがメモリ壁を突破する新手法を発表
サカナ・ラボは、ネットワーク全体をメモリ上に保持する必要がない新しい訓練法を開発した。同社は順次処理を拡散モデルのノイズ除去のように扱い、深層モデルの訓練に必要なメモリ量を大幅に削減することに成功した。
Google の AI が「Google」や他の単語のスペルも間違える理由
TechCrunch は、Google の生成 AI モデルが自社の社名や一般的な単語のスペルを誤る現象について分析し、その技術的・データ上の原因を解説している。
精度を犠牲にせず LLM を高速化する手法
研究者らは国際会議 ICLR で、リアルタイム AI アプリケーションにおいて計算効率を損なわずに大規模言語モデルの速度を向上させる新フレームワークを発表した。
再帰型トランスフォーマー:より深い実効深度と効率的なデコーディング
研究者らが、標準的なトランスフォーマーの「時間的浅さ」を克服する新アーキテクチャ「再帰型トランスフォーマー」を発表した。層ごとの再帰性により、各層が内部メモリを継続的に更新し、大規模な層スタックなしで複雑な反復推論を実現する。
癌治験の95%失敗率をTransformersで解決 — NoetikのRon Alfa & Daniel Bear
NoetikのRon Alfa氏とDaniel Bear氏は、癌治験の95%という高い失敗率が患者と腫瘍のマッチング問題にあるとし、Transformersを用いた解決策を提示している。
独占的自己注意(XSA)の独自紹介
研究者はTransformerの自己注意を改良した「独占的自己注意(XSA)」を発表した。これはトークン自身の情報を除外し、直交する情報のみに焦点を当てる手法で、最大27億パラメータのモデルにおいて言語モデリング性能を向上させる。
未来を見据える思考:トランスフォーマーの潜在先読みトレーニング
OpenAIの研究者が、従来の次トークン予測に代わる潜在先読みトレーニングを提案。この手法は、トランスフォーマーモデルが複数の可能性を探索・反映できるようにし、計算リソースを柔軟に配分することで、生成品質と推論能力の向上を目指す。
現代LLMにおけるアテンション変種のビジュアルガイド
著者が過去数年にわたり解説してきたLLMアーキテクチャを収集・整理し、45種類のアーキテクチャギャラリーを作成した。
数学には思考時間、日常知識には記憶が必要:新Transformerアーキテクチャが両方を実現を目指す
ドイツの研究チームが、Transformerモデルに問題を考える回数を自律決定させ、追加メモリと組み合わせることで、数学問題で大規模モデルを上回る性能を達成した。
Nemotron 3 Superの紹介:エージェント推論のためのオープンなハイブリッドMamba-Transformer MoE
NVIDIAが、エージェントAIシステム向けに推論・コーディング・長文脈処理に特化したオープンソースのハイブリッドMamba-Transformer MoEモデル「Nemotron 3 Super」を発表した。
CONE:単位と変数の意味を保持する複雑な数値データのための埋め込み
研究チームが、大規模事前学習モデルが数値データの意味を適切に扱うための埋め込み手法「CONE」を提案した。
NVIDIA CUDA TileにおけるFlash Attentionのピークパフォーマンス調整
NVIDIAが、現代AIの重要なワークロードであるFlash Attentionの実装方法と、CUDA Tileを使用した最適化テクニックを解説している。
トランスフォーマーにおけるエキスパート混合(MoEs)
トランスフォーマーモデルに複数の専門家ネットワークを組み合わせるMoE手法を紹介。効率的な計算と高性能化を実現する技術で、大規模AIモデルの開発に寄与。
NVIDIA Blackwell UltraによるSoftmaxの効率化
NVIDIAの次世代アーキテクチャBlackwell Ultraが、AI計算の重要な関数Softmaxを効率化し、大規模言語モデルの性能向上に貢献する技術革新について。
NVFP4低精度モデルトレーニングによる精度を損なわない高スループットの実現
NVIDIAのNVFP4低精度トレーニング技術は、モデルの精度を維持しながら計算スループットを向上させ、AI開発の効率化とコスト削減に貢献する。
Differential Transformer V2が発表されたので、今更ながらV1論文を読んで差分を確認してみた
Differential Transformer V2は、V1の2つのアテンションの差分を取るシンプルなアイデアを発展させ、アテンションノイズ抑制やスケーリング効率向上などの改善を実現した。
事前学習済みLLMの位置埋め込みを削除することでコンテキストを拡張
SakanaAIが、事前学習済み大規模言語モデルの位置埋め込みを削除するDroPE手法を発表した。この手法は、大規模な計算コストを伴わずにコンテキスト長を拡張できる。
大規模言語モデルの能力を向上させる新手法
研究者が、言語の構文変化や状態遷移を追跡する手法を開発し、大規模言語モデルの逐次推論能力を向上させた。
Seed Research|Depth Anything 3:単一Transformerアーキテクチャによる任意視点の空間再構築を実現
Seed Researchが、単一のTransformerアーキテクチャを用いて、任意の視点からの空間再構築を可能にする「Depth Anything 3」を発表した。この技術は、単眼深度推定と多視点再構築の技術的課題を克服するものである。
スクラッチから理解するLLMのKVキャッシュの仕組みと実装
著者が、LLMの推論効率化に重要なKVキャッシュの概念と、スクラッチでの実装方法を解説している。
Substackへの移行
著者がブログを凍結し、Substackでの投稿を開始。執筆体験がより便利で、DeepSeek R-1の解説やTransformer LLMコースを紹介。
ついにBERTの代替モデル登場:ModernBERTを発表
Hugging Faceは、既存のBERT系モデルに置き換え可能なエンコーダー専用モデル「ModernBERT」を発表した。最大8192トークンのシーケンス長に対応し、処理速度と下流タスクの性能を向上させた。
RetNet入門
自然言語処理の進化を概観し、従来のRNNからTransformerへの移行を説明。RetNetの基本概念を紹介する入門記事。
マンバの解説
Transformerモデルの長文処理の非効率性を解決する、状態空間モデルに基づく新たなAIモデル「マンバ」が登場。
トランスフォーマーファミリー版2.0
著者は3年前の投稿を大幅に改訂し、近年のアーキテクチャ改善案を追加した「トランスフォーマーファミリー版2.0」を公開した。これは旧版の上位互換で約2倍の長さとなり、セクション階層を再構築して最新論文を反映している。
大規模トランスフォーマーモデルの推論最適化
記事は、主流となった大規模トランスフォーマーモデルの推論コスト(時間・メモリ)が実世界での大規模適用におけるボトルネックであると指摘し、その最適化手法について解説している。
言葉を見つけること:言語モデルの隠れ状態可視化
言語モデルの層間の隠れ状態を可視化することで、モデルの「思考プロセス」の手がかりを得られる。
トランスフォーマー言語モデルを説明するためのインターフェース
トランスフォーマー言語モデルを入力の顕著性とニューロン活性化で分析するインターフェースを紹介。入力の重要度とニューロン活性化の可視化を通じてモデルの内部動作を理解する手法を提案。
GPT3の仕組み - ビジュアライゼーションとアニメーション
GPT3などの大規模言語モデルの能力が注目を集め、技術界で話題となっている。