#long context のAIニュース

17件の記事

GLM-5.2 OpenAI 互換 API：推論努力、関数呼び出し、長文コンテキスト検索のハンズオンガイド

Zhipu AI が提供する GLM-5.2 モデルの OpenAI 互換 API を使用し、推論努力制御や関数呼び出し機能を実践的に検証するチュートリアルを公開した。

MarkTechPost·6月23日·★★★★

Preferred Networks、国産生成AI基盤モデル「PLaMo 3.0 Prime」をリリース

Preferred Networks は、推論能力の強化とコンテキスト長の拡張（256K）を実現した新モデル「PLaMo 3.0 Prime」を公開し、API や無料プランを通じて提供を開始しました。

Preferred Networks·6月22日·★★★★

KV キャッシュ圧縮競争：TurboQuant、OSCAR、EpiCache の比較

MarkTechPost は、長文コンテキストを持つ大規模言語モデルにおけるメモリボトルネックを解消する KV キャッシュ圧縮技術の最新動向について、TurboQuant、OSCAR、EpiCache の各手法を比較分析している。

MarkTechPost·6月18日·★★★★

Z.ai が GLM-5.2 を発表：100 万トークンのコンテキストとコーディング機能強化

Z.ai は、100 万トークン対応のコンテキストウィンドウや新推論制御機能を備えた「GLM-5.2」を発表した。同社は本モデルをコードベース全体を対象とした長期的なコーディングタスクに特化したアジェンシー型ソフトウェアエンジニアリング向けと位置付け、Coding プランユーザーに即時提供を開始し、来週には API やオープンウェイトの公開を予定している。

TLDR AI·6月17日·★★★★

Z.ai が使用可能な 100 万トークンコンテキストと 2 つの思考レベルを備えた GLM-5.2 を発表、ベンチマークなしでリリース

Z.ai は最新大規模言語モデル「GLM-5.2」を発表し、100 万トークンの使用可能コンテキストウィンドウと 2 つの思考努力レベルを搭載した。同社は本モデルにベンチマーク結果を伴わずにリリースを行った。

MarkTechPost·6月15日·★★★★

Anthropic、Claude Fable 5 と Claude Mythos 5 を発表：基盤モデルは同一だが安全策が異なり、新「Mythos クラス」 tiers 登場

Anthropic は 2026 年 6 月 9 日、能力が Opus クラスを上回る新 tiers「Mythos クラス」に属する Claude Fable 5 と Claude Mythos 5 を発表した。Fable 5 は一般利用向けに安全策を強化し、Mythos 5 は一部制限を解除した限定版として提供される。

MarkTechPost·6月10日·★★★★

効率的な推論のための MiniMax-M3 の提供：後悔のない 100 万トークンコンテキストとマルチモーダル性の解放

Together AI は、MiniMax-M3 モデルの提供を開始し、100 万トークンのコンテキスト長とマルチモーダル機能を効率的に実現した。

Together AI Blog·6月2日·★★★★

DeepSeek V4 ProおよびFlashモデル、Huawei Ascendチップで動作可能に

DeepSeekが大型遅延を経てDSV4をリリース。これは2024年12月のDSV3以来の主要バージョンであり、現在オープンモデルリーダーであるKimi K2.6やXiaomi Mimo 2.5と肩を並べる水準に達した。

Latent Space·4月25日·★★★★

OlmPool：小さなアーキテクチャの選択が長文コンテキスト拡張を阻害する仕組み

研究者らは26モデルからなる制御されたスイート「OlmPool」を作成し、学習データや拡張レシピを一定に保った場合でも、アーキテクチャ上の微小な選択が積み重なることで長文コンテキストの拡張が困難になることを示した。

Allen AI (AI2)·4月23日·★★★★

GPT-5.4の紹介

OpenAIがGPT-5.4とGPT-5.4-proの2つの新APIモデルを発表し、ChatGPTとCodex CLIで利用可能にした。2025年8月31日までの知識カットオフと100万トークンのコンテキストウィンドウを特徴とする。

Simon Willison Blog·3月6日·★★★★

大規模モデル推論コンテナ - 最新機能と性能向上

OpenAIが大規模言語モデルの推論コンテナを発表し、トークン数の増加に伴うコストと性能の課題に対応する最新機能と性能向上を実現した。

AWS Machine Learning Blog·2月27日·★★★★

ジェフ・ディーン深度インタビュー：1枚のメモがGeminiを生み出し、Google AIの反撃と10,000トークンの未来

Googleのチーフサイエンティストであるジェフ・ディーンが、蒸留技術の起源、1枚のメモでBrainとDeepMindの合併を促しGeminiを生み出した経緯、長いコンテキストやAIハードウェアのエネルギー効率、10,000トークン/秒の未来について語った。

宝玉的分享·2月17日·★★★★

Claude Opus 4.6の紹介

AnthropicがClaude Opus 4.6を発表した。この新バージョンは、AIアシスタントの性能向上を目指すリリースである。

Anthropic News·2月5日·★★★★★

事前学習済みLLMの位置埋め込みを削除することでコンテキストを拡張

SakanaAIが、事前学習済み大規模言語モデルの位置埋め込みを削除するDroPE手法を発表した。この手法は、大規模な計算コストを伴わずにコンテキスト長を拡張できる。

Sakana AI·1月12日·★★★★★

Qwen3-Coder：世界におけるエージェント型コーディング

QwenチームはMoE方式の「Qwen3-Coder」を発表した。最大1Mトークンに対応し、コーディングとエージェントタスクで卓越する。

Qwen Blog·7月22日·★★★★

Qwen2.5-1M：最大100万トークンのコンテキスト長で独自のQwenをデプロイ

Qwenチームは最大100万トークン対応のオープンソースモデルQwen2.5-7B-Instruct-1Mと14B-Instruct-1Mをリリースし、推論フレームワークも提供した。

Qwen Blog·1月27日·★★★★

マンバの解説

Transformerモデルの長文処理の非効率性を解決する、状態空間モデルに基づく新たなAIモデル「マンバ」が登場。

The Gradient·3月28日·★★★★★