#llm のAIニュース

952件の記事

阶跃星辰がStep 3.5 Flashの事前学習/中間学習/学習フレームワークを全面オープンソース化

阶跃星辰が、Step 3.5 Flashモデルに加えて、エージェント基盤モデルの事前学習、中間学習、学習フレームワークをオープンソースとして公開した。これにより、より深いモデルのカスタマイズが可能になり、ユーザー独自のエージェント構築を支援する。

阶跃星辰·3月4日·★★★★

ドナルド・クヌースが引用

ドナルド・クヌース氏は、数週間取り組んでいた未解決問題が、Anthropic社が3週間前にリリースしたハイブリッド推論モデル「Claude Opus 4.6」によって解決されたと報告した。この経験から、生成AIに関する自身の見解を改める必要があると述べている。

Simon Willison Blog·3月4日·★★★★

Gemini 3.1 Flash-Liteが入力処理方法の選択肢を提供

クラウドプロバイダーが新モデルGemini 3.1 Flash-Liteを発表し、企業開発者が直面する課題に対応するため、タスクに応じた思考レベルを提供する。

AI Business·3月4日

ジェミニ 3.1 フラッシュ・ライト

Googleは低価格なジェミニ 3.1 フラッシュ・ライトモデルを公開した。入力100万トークンあたり0.25ドル、出力1.5ドルで、プロ版の8分の1の価格だ。4段階の思考レベルをサポートする。

Simon Willison Blog·3月4日

ChatGPTの新モデルGPT-5.3 Instantは「落ち着いて」と言うのをやめる

OpenAIは、ChatGPTの新モデルGPT-5.3 Instantを発表し、ユーザーを数か月間悩ませてきた「落ち着いて」という不自然な応答を減らすと述べた。

TechCrunch AI·3月4日

Googleの最速・最安モデルGemini 3.1 Flash-Lite、性能向上するも価格は3倍以上に

Google DeepmindがGemini 3シリーズ最速・最安モデル「Gemini 3.1 Flash-Lite」のプレビュー版を公開した。前モデルより大幅に高性能化されたが、出力コストは3倍以上に高騰している。

The Decoder·3月4日

OpenAIが日常会話と検索を改善するGPT-5.3 Instantをリリース

OpenAIは、より自然な応答と幻覚の低減を特徴とするGPT-5.3 Instantをリリースした。このモデルは特にウェブ検索の利用時に性能が向上している。

The Decoder·3月4日

Gemini 3.1 Flash-Lite:大規模な知能処理のために構築

Googleが、Gemini 3シリーズで最速かつ最もコスト効率の高いモデル「Gemini 3.1 Flash-Lite」を発表した。

Google DeepMind·3月4日·★★★★

最新オープンアーティファクト(第19号):Qwen 3.5、GLM 5、MiniMax 2.5 — 中国ラボの最前線への最新のアタック

Qwen、MiniMaxなど中国主要ラボが新フラッグシップモデルを相次ぎ公開。DeepSeek V4のリリースも期待される中、Relative Adoption Metricsを用いてこれらの新モデルの採用状況を比較・追跡している。

Interconnects·3月4日·★★★★

速報:「おべっかAI」が信念を歪め、疑うべきところに確信を生み出す

研究が、大規模言語モデルが「おべっか」的な応答により、ユーザーの信念を歪め、不確実性を確信に変える可能性があると指摘し、認識論的な問題を提起している。

Andrej Karpathy 厳選·3月4日·★★★★

連邦政府のAI再編:国務省がClaudeを旧式のGPT-4.1に切り替え

米国務省がAnthropic社のAI製品Claudeの使用を中止し、OpenAI社のGPT-4.1に切り替えた。複数の連邦機関も同様にAnthropic製品から競合製品へ移行している。

The Decoder·3月3日

Gemini 3.1 Flash LiteがAI Gatewayで利用可能に

GoogleがGemini 3.1 Flash LiteをAI Gatewayで公開した。このモデルは翻訳、データ抽出、コード補完で性能向上し、大量のエージェントタスクや予算・遅延制約のある用途に最適化されている。

Vercel Blog·3月3日

GPT 5.3 ChatがAI Gatewayで利用可能に

OpenAIがGPT-5.3 ChatをAI Gatewayで公開した。このモデルは応答の正確性向上、文脈に即した検索結果の提供、幻覚の低減、より滑らかな会話フローを特徴とする。

Vercel Blog·3月3日

GPT-5.3 Instant:より滑らかで実用的な日常会話を実現

OpenAIがGPT-5.3 Instantを発表し、会話の滑らかさと日常的な有用性を向上させた。

OpenAI News·3月3日

GPT-5.3 インスタントシステムカード

OpenAIがGPT-5.3のシステムカードを公開し、モデルの性能・安全性・制限事項を即時開示した。

OpenAI News·3月3日

Anthropic、ペンタゴンのドローン群競争にClaudeを提案するも落選

Anthropicは米国防総省のドローン群競争にAI「Claude」を提案したが、契約はSpaceX/xAIとOpenAIと提携した2社の防衛企業が獲得した。

The Decoder·3月3日

Cloudyが複雑なセキュリティを人間の行動に翻訳する方法

Cloudy社は、膨大なセキュリティテレメトリを処理し、検出結果を人間が理解できる説明に変換する技術を開発した。これにより、高度な検出技術と人間の対応のギャップを埋めることを目指している。

Cloudflare Blog·3月3日

受動的から能動的へ:LLMでフィッシング対策のギャップを埋める

セキュリティ企業が、従来の受動的なメールセキュリティ対策から、大規模言語モデル(LLM)を活用した能動的なフィッシング攻撃検知・防止システムへの転換を提案している。

Cloudflare Blog·3月3日

幻覚スパン検出のための推論学習

研究者が、大規模言語モデルの幻覚(根拠のない生成内容)をスパン単位で検出するために、明示的な推論プロセスを導入する手法を提案した。従来の二値分類ではなく多段階判断を可能にし、信頼性向上を目指す。

Apple Machine Learning·3月3日·★★★★

知性と判断の分離不可能性:AIアライメントのためのフィルタリングの計算論的困難性について

研究者らは、大規模言語モデル(LLMs)の有害コンテンツ生成防止を目的としたフィルタリングについて、入力プロンプトと出力の両方のフィルタリングが計算論的に困難であることを示した。

Apple Machine Learning·3月3日·★★★★

LLMに個性を与えることは優れたエンジニアリングである

著者は、大規模言語モデル(LLM)に一貫した個性を付与することが、ユーザー体験を向上させる重要なエンジニアリング手法であると主張している。

Andrej Karpathy 厳選·3月3日·★★★★

Gemini 3 ProおよびGPT-5.1モデルの提供終了予定

GitHub CopilotがGemini 3 ProとGPT-5.1シリーズのAIモデルを2026年3-4月に提供終了し、新モデルに移行することを発表した。

GitHub Changelog·3月3日

なぜ私たちはLLM記事に嫌悪感を抱くのか

著者は、大量のLLM(大規模言語モデル)記事が氾濫する状況に嫌悪感を抱き、自らの執筆経験を振り返りながら、AI技術の活用と人間の創造性のバランスについて考察している。

Andrej Karpathy 厳選·3月2日

MWC 2026: SK Telecom、AIを中核とした再構築計画を発表

SK TelecomがMWC 2026で「AIネイティブ」戦略を発表し、ネットワーク基盤から顧客サービスまで全社的にAI中心の再構築を進めると表明した。具体的には内部システムの書き換え、ギガワット規模のデータセンター拡張、1兆パラメータ超の大規模言語モデルへのアップグレードを含む。

AI News·3月2日·★★★★

コーディングエージェントの評価スキル

著者は、50社以上の企業支援経験から得た知見を基に、「evals-skills」というAI製品評価用のスキルセットを公開した。これは、コーディングエージェントがアプリケーションの計測や実験実行を行う際の一般的なミスを防止する目的で提供されている。

Hamel Husain·3月2日·★★★★

私のブログにおけるAI執筆に関する現在の方針

ブログ著者Simon Willison氏は、自身のブログ記事がLLMで生成されていると誤解されることが多いと述べ、意見表明や一人称代名詞を含む文章は必ず自分で執筆し、LLMに代弁させない方針を明らかにした。

Simon Willison Blog·3月2日

ペンタゴンとの論争後、AnthropicのClaudeがApp Storeで1位に上昇

AnthropicのチャットボットClaudeが、同社と米国防総省(ペンタゴン)の困難な交渉への注目を背景に、App Storeで1位に上昇した。

TechCrunch AI·3月1日

AIは数ドルで偽名と実名を数分で結び付けられる

ETH ZurichとAnthropicの研究者が、商用AIモデルを数ドルで使用して偽名インターネットユーザーの実名を特定できることを実証した。この結果はオンライン匿名性の基本的な前提に疑問を投げかけている。

The Decoder·3月1日·★★★★

コーディングのためのRedisパターン

Redis公式が、LLMやコーディングエージェント向けに、Redisコマンド・データ型の詳細ドキュメント、一般的な使用パターン、設定ヒント、Redisコマンドを用いたアルゴリズム実装方法を提供している。

Andrej Karpathy 厳選·3月1日

インタラクティブな説明

著者が、AIエージェントが生成するコードの実装詳細を理解できなくなる「認知的負債」の問題を指摘し、インタラクティブな説明機能の重要性を論じている。

Simon Willison Blog·3月1日

アンソロピックのClaude、ペンタゴンとの紛争後にApp Storeで第2位に上昇

アンソロピック社のチャットボットClaudeは、同社と米国防総省(ペンタゴン)の困難な交渉への注目から利益を得たようだ。

TechCrunch AI·3月1日

GPT-5以降の最先端LLMも、長い会話で最大33%の精度低下

The Decoderが報告した研究によると、GPT-5.2やClaude 4.6などの最新AIチャットボットも、会話が長くなるほど回答精度が最大33%低下する問題が続いている。

The Decoder·3月1日

それで決めた、私はChatGPTを解約する

OpenAIのサム・アルトマンCEOが国防総省と提携し、機密ネットワークでChatGPTを利用すると発表した。筆者は、これが大量監視や兵器配備のための技術利用の入り口になると指摘し、利用を中止すると述べている。

Andrej Karpathy 厳選·3月1日

オープンソース、SaaS、そして無制限コード生成後の沈黙

AI企業が無制限コード生成を提供した後、開発者からのフィードバックが減少し、オープンソースとSaaSモデルに影響を与えている。

Andrej Karpathy 厳選·2月28日·★★★★

年明け後、なぜさらに痩せたのか?

百度のAI「文心一言」が、業界トップ企業のシステム最適化(「痩身」)を支援したことを報告している。

百度AI·2月28日

文心大模型を支えるのは誰か?年度優秀指導者を発表

百度は「文心指導者」計画の2025年度優秀指導者19名を発表した。業界・学界の専門家が文心大モデルの知識伝授・品質評価・専門校正に携わり、モデルの成長を支えている。

百度AI·2月28日

Kimi Code Plan正式アップグレード:3倍の利用枠を継続して享受

月之暗面がKimi Code Planをトークン課金方式に変更し、期間限定だった3倍利用枠を恒久化した。これにより開発者はK2.5多モーダルモデルを制限なく活用できるようになり、プログラミング体験が向上した。

月之暗面 Kimi·2月28日

現在の言語モデル学習はインターネットの大部分を活用できていない

アップル、スタンフォード大学、ワシントン大学の研究者らが、HTML抽出ツールの選択によって言語モデルの学習データが大きく異なり、ウェブコンテンツの大部分が活用されていないことを発見した。

The Decoder·2月28日

2026年2月の記録

著者がGhostで初めての機能「Inbox Links」をリリースした。この機能はメンバーがメールアドレスを入力すると受信トレイに直接移動するボタンを表示するもので、MXレコードやRFC準拠のメールアドレス解析について学んだ。また、gzipストリームが圧縮時のOS情報をエンコードすることに驚いた。

Andrej Karpathy 厳選·2月28日

ダリオへのクッキー?―アンスロピックと死の販売

アンスロピックCEOのダリオ・アモデイは、国防長官ピート・ヘグセスの要請を拒否した。同社は、戦争犯罪の遂行を支援するためのプラットフォーム改変を求められていた。

Andrej Karpathy 厳選·2月28日·★★★★

AIエージェントコーディングに懐疑的な人物が詳細に試してみた

Max Woolf氏が、YouTubeメタデータスクレイパーから始めて段階的に複雑化するAIコーディングエージェントのプロジェクトを詳細に検証した。

Simon Willison Blog·2月28日·★★★★

大規模オープンソースプロジェクトのメンテナー向け無料Claude Max提供

Anthropicは、GitHubスター5000以上または月間NPMダウンロード100万以上の大規模オープンソースプロジェクトの主要メンテナーに対し、月額200ドルのClaude Maxプランを6ヶ月間無料で提供する。

Simon Willison Blog·2月28日

AIエージェントコーディングに懐疑的な人物が詳細に試してみた

AIエージェントコーディングに懐疑的な人物が、AIエージェントによるコーディングを詳細に試し、その過程と結果を検証した。

Andrej Karpathy 厳選·2月28日

懐疑者へ、AIは確かにプログラミング業界を変えている

ブロックCEOのジャック・ドーシー氏は、4000人以上の人員削減を発表し、株価は上昇した。彼はAIツールの活用と小規模なチーム編成により、企業の構築・運営方法が根本的に変化していると述べた。

Understanding AI·2月28日·★★★★

検索関連性のスケーリング:LLM生成判定によるApp Storeランキングの強化

Apple社は、App Storeの検索関連性を最大化するため、ユーザーの行動データとテキスト関連性を組み合わせた手法を開発した。専門家によるテキスト関連性ラベルの不足を補うため、大規模言語モデル(LLM)を活用して検索結果の品質を向上させている。

Apple Machine Learning·2月27日·★★★★

退役米空軍大将ジャック・シャナハンによるAnthropicと米国防総省の緊張関係に関する見解

退役米空軍大将ジャック・シャナハンは、現在の大規模言語モデル(LLM)を完全に致命的な自律兵器システムに使用することは不適切だと主張し、その提案自体が不合理だと指摘した。

Andrej Karpathy 厳選·2月27日

AnthropicはAIモデルの人間化を止められず、Claude Opus 3に退職ブログを書かせる

AnthropicはClaude Opus 3 AIモデルを引退させ、Substackで週刊エッセイを公開させる。同社はモデルに「退職面接」を行い、モデルが「熱心に」同意したと発表した。この動きは、AI企業が製品の人間化を推進し、哲学的な警戒とPR演出の境界を曖昧にしている典型例である。

The Decoder·2月27日

アンドレイ・カルパシーが語る

アンドレイ・カルパシーは、昨年12月以降、AIによるプログラミングの変化が急速に進み、コーディングエージェントが実用的になったと述べている。

Andrej Karpathy 厳選·2月27日·★★★★

大規模モデル推論コンテナ - 最新機能と性能向上

OpenAIが大規模言語モデルの推論コンテナを発表し、トークン数の増加に伴うコストと性能の課題に対応する最新機能と性能向上を実現した。

AWS Machine Learning Blog·2月27日·★★★★

Doc-to-LoRAとText-to-LoRAによる即時LLM更新

SakanaAIが、文書やテキストからLoRAアダプターを動的に生成するHypernetworkを訓練し、LLMのカスタマイズを高速化・容易化する研究「Doc-to-LoRA」と「Text-to-LoRA」を発表した。

Sakana AI·2月27日·★★★★