#llm のAIニュース

409件の記事

Anthropicの自動モードはClaudeの監視不要を意味する

AnthropicがClaude向け自動モード機能を発表した。この機能は時間節約に役立つが、より多くの幻覚生成や低品質コードの原因となる可能性がある。

AI Business·3月25日

Kimi 1TパラメータM4 Maxで動作

1兆パラメータのKimiモデルがM4 Maxで1.7トークン/秒で動作

X: Simon Willison·3月25日

Claudeチームプラン提供開始

Claudeのチームプランがリサーチプレビューとして利用可能に

X: Claude·3月25日

Anthropicのマルチエージェント手法

Claudeの性能向上のための新たな技術アプローチを紹介

X: Anthropic·3月25日

397BモデルがiPhoneで動作

Qwen3.5-397B-A17BがストリーミングMoE技術でiPhoneで動作可能に

X: Simon Willison·3月24日·★★★★

トークンで学習、概念で調整:LLMにおける意味的キャリブレーションの出現

研究チームは、大規模言語モデル(LLM)がトークンレベルを超えて回答の意味に対する信頼度を評価できる「意味的キャリブレーション」を発見した。サンプリングベースの手法により、LLMはオープンドメイン質問応答タスクで有意な信頼度推定が可能であることを示した。

Apple Machine Learning·3月24日·★★★★

Anthropic経済指標レポート:学習曲線

Anthropicが2026年3月24日に経済指標レポートを発表し、学習曲線に関する分析を公開した。

Anthropic Research·3月24日

Neuroticaの引用

AI研究者のNeuroticaは、AI生成コンテンツ(スロップ)が人間の消費努力を生産努力より多く要し、同僚が未編集のGemini出力を共有することは時間の価値の軽視だと指摘している。

Simon Willison Blog·3月24日

Gemini 3.1 ProがJetBrains IDE、Xcode、Eclipseで利用可能に

GoogleはGemini 3.1 ProモデルをJetBrains IDE、Xcode、Eclipseを含む複数の開発環境で公開プレビューとして提供開始した。Copilot Enterprise、Business、ProユーザーがGitHub Copilot Chatを通じて利用できる。

GitHub Changelog·3月24日

AIエージェントの課題

長期的タスクでのAIエージェント連携の限界について

X: Anthropic·3月24日

裁判官がDOGE証言録取ビデオのオンライン公開を再許可

裁判官がDOGEメンバーの証言録取ビデオのオンライン公開を再許可した。当初は原告にビデオの削除を命じていたが、ビデオは既に広く拡散していた。

404 Media·3月24日

バーニー・サンダースのAI「ゲッチャ」動画は失敗、しかしミームは素晴らしい

バーニー・サンダース上院議員はAI「Claude」をだまして業界の秘密を明かさせようとしたが、実際にはチャットボットがいかに従順になり得るかを露呈しただけだった。

TechCrunch AI·3月24日

機械はあなたの技術を奪わなかった

David Abramは、プログラミングの本質はコード記述ではなく、システム理解や設計判断にあると述べ、LLMはこれらの課題を解決できないと主張している。

Simon Willison Blog·3月24日

このウェブツールはAIチャットボットを極端に遅くすることで妨害する

研究者が開発したウェブツールが、AIチャットボットの応答速度を意図的に低下させることで、ユーザーがAIに依存しすぎる問題を提起している。

404 Media·3月24日

機械はいつか知能を持つのか?

マイクロソフトリサーチのダグ・バーガーら専門家が、技術者・政策立案者・企業関係者向けに、AI移行を前向きに進めるための共通理解を深める取り組みを紹介している。

Microsoft Research·3月24日

Step Plan養蝦套餐がリリース、開発者コミュニティ向け半額キャンペーン開始

階躍星辰がOpenClaw/Codingユーザー向け月額サブスクリプション「Step Plan」を発表。Step 3.5 Flashモデルを搭載した4段階のプランを提供し、開発者コミュニティ向けに半額割引を実施。

阶跃星辰·3月23日

マージ状態ビジュアライザー

Bram CohenがCRDTを用いたバージョン管理の将来像について述べ、470行のPythonコードで説明した。彼はそのコードをClaudeに入力し、可視化ツールを生成した。

Simon Willison Blog·3月23日

現代LLMにおけるアテンション変種のビジュアルガイド

著者が過去数年にわたり解説してきたLLMアーキテクチャを収集・整理し、45種類のアーキテクチャギャラリーを作成した。

Sebastian Raschka·3月22日

Hacker Newsユーザーのコメントに基づくプロファイリング

著者がHacker Newsユーザーの過去1000件のコメントをAlgolia APIで取得し、「このユーザーをプロファイリングせよ」というプロンプトで実験していることを紹介している。

Simon Willison Blog·3月22日

エージェントの新概念ガイド

本番環境でのAIエージェントの振る舞いに関する新ガイド

X: LangChain·3月22日

信頼度推定、自己評価、自動ウェブ調査を備えた不確実性認識LLMシステムの構築実装

研究者が、回答生成だけでなく信頼度推定も行う不確実性認識大規模言語モデルシステムを構築した。3段階の推論パイプラインで、モデルは回答と信頼度スコアを生成し、自己評価で回答を批判・改良する。

MarkTechPost·3月22日·★★★★

OpenAI、2026年までに従業員数を倍増し企業向けAI市場に本格参入

OpenAIは2026年末までに従業員数を約8,000人に倍増し、Anthropicが着実にシェアを拡大している企業向けAI市場への本格的な進出を計画している。

The Decoder·3月22日

Turbo Pascal 3.02Aの解体分析

James Hague氏が、1985年のTurbo Pascal 3.02実行ファイル(39,731バイト)が現代の小さなファイルよりも小さいことを指摘。これが著者に同実行ファイルの分析を促し、IDEとコンパイラを内包した当時の技術的効率性を明らかにした。

Simon Willison Blog·3月21日

NVIDIAがNemotron-Cascade 2をリリース:3Bの活性化パラメータを持つオープンな30B MoEモデルで、推論能力とエージェント機能を強化

NVIDIAは、30BのMixture-of-Expertsモデルで3Bの活性化パラメータを持つNemotron-Cascade 2を公開した。このモデルは「知能密度」を最大化し、フロンティアモデルよりも少ないパラメータで高度な推論能力を提供し、2025年の国際数学オリンピックなどでゴールドメダルレベルの性能を達成した。

MarkTechPost·3月21日·★★★★

Kimi.aiがCursorのComposer 2立ち上げを祝福、Kimi-k2.5が基盤を提供

Kimi.aiは、CursorがComposer 2を立ち上げたことを祝福した。Kimi-k2.5が基盤モデルを提供し、Cursorの継続事前学習と高性能RL学習を通じて効果的に統合された。

Simon Willison Blog·3月21日

NvidiaがNemotron-Cascade 2を公開

NvidiaがHugging Faceで新しいモデルNemotron-Cascade 2をリリース

X: AK·3月21日

StripeのエンジニアがMinionsを導入、自律エージェントが週数千のプルリクエストを生成

Stripeのエンジニアが、LLMとCI/CDパイプラインを活用した自律コーディングエージェント「Minions」を導入し、Slackやバグ報告から週1300件以上の本番対応可能なプルリクエストを生成している。

InfoQ·3月20日·★★★★

Mellea 0.4.0の新機能とGraniteライブラリのリリース

Melleaがバージョン0.4.0をリリースし、Graniteライブラリを公開した。新バージョンではパフォーマンス向上と新APIが追加され、Graniteライブラリは開発者がAI機能を統合しやすくするツールを提供する。

Hugging Face Blog·3月20日·★★★★

データセンターへの攻撃、全サイズのQwen3.5、DeepSeekの華為戦略、Appleのマルチモーダルトークナイザー

AI業界では、データセンターへの攻撃懸念、Qwen3.5の全サイズ展開、DeepSeekの華為連携、Appleのマルチモーダルトークナイザー開発が進む。

The Batch·3月20日

量子化精度がツール呼び出しに影響

2ビット量子化でツール呼び出しが壊れ、4ビットにアップグレードで解決

X: Simon Willison·3月20日

Appleの「LLM in a Flash」を活用してQwen 397Bをローカルで実行する自動研究

研究者のDan Woodsが、Appleの「LLM in a Flash」技術を応用し、通常209GB(量子化後120GB)のQwen3.5-397B-A17Bモデルを48GB MacBook Pro M3 Maxで5.5+トークン/秒で動作させることに成功した。

Simon Willison Blog·3月19日·★★★★

清華大学とアントグループの研究者、OpenClawの自律LLMエージェント脆弱性を緩和する5層ライフサイクル指向セキュリティフレームワークを発表

清華大学とアントグループの研究者が、OpenClawの自律LLMエージェントが従来の防御を回避する多段階システムリスクに脆弱であると指摘し、5層のライフサイクル指向セキュリティフレームワークを提案した。

MarkTechPost·3月19日·★★★★

Qwen 3.5 397B-A17B M3 Mac動作

209GB MoEモデルがM3 Macで動作、約5.7トークン/秒を実現

X: Simon Willison·3月19日

エージェントの新概念ガイド

本番環境でのエージェント挙動に関する新ガイド公開

X: LangChain·3月19日

ランキング対象企業が出資する「操作不能」リーダーボード

Arena(旧LM Arena)は、UCバークレーの博士研究から7ヶ月で、最先端LLMの事実上の公開リーダーボードとして台頭し、資金調達や製品発表に影響を与えている。

TechCrunch AI·3月19日·★★★★

AI業界の審判となった博士課程学生たち

UCバークレーの博士課程学生らが立ち上げたArena(旧LM Arena)が、最先端LLMの事実上の公開リーダーボードとして、資金調達や製品発表に影響を与えている。

TechCrunch AI·3月19日·★★★★

HubSpotのSidekick:マルチモデルAIコードレビューでフィードバック速度90%向上、エンジニア承認率80%

HubSpotのエンジニアが、大規模言語モデルと「判定エージェント」を活用したAIコードレビューシステム「Sidekick」を導入し、プルリクエストの初回フィードバック時間を約90%短縮した。

InfoQ·3月18日·★★★★

GPT-5.4 mini/nano発表

OpenAIがGPT-5.4の小型モデルminiとnanoを発表

X: OpenAI Developers·3月18日

Prose2Policy (P2P): 自然言語アクセスポリシーを実行可能なRegoコードに変換する実用的なLLMパイプライン

Prose2Policy (P2P)は、自然言語のアクセス制御ポリシーをOpen Policy AgentのRegoコードに変換するLLMベースのツールで、ポリシー検出から自動テスト生成までをカバーするエンドツーエンドパイプラインを提供する。

Apple Machine Learning·3月18日·★★★★

GPT-5.4 mini/nano発表

GPT-5.4のminiとnanoモデルがリリース、特にnanoモデルに注目

X: Simon Willison·3月18日

GPT-5.4 miniおよびnano、7万6000枚の写真記述を52ドルで実現

OpenAIがGPT-5.4 miniとnanoを発表。新モデルは従来モデルより高性能で高速。価格はGPT-5.4-miniが入力100万トークンあたり0.15ドル、出力100万トークンあたり0.60ドル。

Simon Willison Blog·3月18日·★★★★

llm 0.29

llmプロジェクトがバージョン0.29をリリースし、OpenAIの新モデル「gpt-5.4」「gpt-5.4-mini」「gpt-5.4-nano」のサポートを追加した。

Simon Willison Blog·3月18日

OpenAIがGPT-5.4 miniとnanoをリリース、性能向上も最大4倍の価格上昇

OpenAIがコーディングアシスタントやサブエージェント向けの小型モデル「GPT-5.4 mini」と「nano」を発表した。GPT-5.4 miniはフルモデルに匹敵する性能を持つが、前モデル比最大4倍の価格上昇となった。

The Decoder·3月18日·★★★★

GPT-5.4 miniリリース

WindsurfでGPT-5.4 miniが利用可能に

X: Windsurf·3月18日

GPT-5.4 mini APIリリース

GPT-5.4 miniがAPI、Codex、ChatGPTで利用可能に

X: OpenAI Developers·3月18日·★★★★

GPT-5.4 mini性能発表

小型モデルが大型モデルに匹敵する性能を達成

X: OpenAI Developers·3月18日·★★★★

GPT-5.4 mini/nano発表

OpenAIが小型モデルGPT-5.4 miniとnanoを発表

X: OpenAI Developers·3月18日·★★★★

GPT-5.4 nano API公開

GPT-5.4 nanoがAPIで利用可能に

X: OpenAI·3月18日

GPT-5.4 miniリリース

OpenAIがGPT-5.4 miniをChatGPT、Codex、APIで公開。コーディング最適化。

X: OpenAI·3月18日

LumberChunker: 長編物語文書のセグメンテーション

IST、NeuralShift AI、CMUの研究者らが、長編物語文書を構造的に分割する「LumberChunker」を発表した。

ML@CMU·3月18日·★★★★