#llm のAIニュース

413件の記事

Gemini 3.1 Flash-Lite実用例

Google AIが新モデルの実用的な問題解決例を紹介

X: Google AI·3月4日

Gemini 3.1 Flash-Liteが入力処理方法の選択肢を提供

クラウドプロバイダーが新モデルGemini 3.1 Flash-Liteを発表し、企業開発者が直面する課題に対応するため、タスクに応じた思考レベルを提供する。

AI Business·3月4日

Gemini 3.1 Flash-Lite

Googleが低価格モデルファミリー「Flash-Lite」の最新版「Gemini 3.1 Flash-Lite」を発表した。入力100万トークンあたり0.25ドル、出力100万トークンあたり1.5ドルで、Gemini 3.1 Proの1/8の価格を実現している。

Simon Willison Blog·3月4日

ChatGPTの新モデルGPT-5.3 Instantは「落ち着いて」と言うのをやめる

OpenAIは、ChatGPTの新モデルGPT-5.3 Instantを発表し、ユーザーを数か月間悩ませてきた「落ち着いて」という不自然な応答を減らすと述べた。

TechCrunch AI·3月4日

Googleの最速・最安モデルGemini 3.1 Flash-Lite、性能向上するも価格は3倍以上に

Google DeepmindがGemini 3シリーズ最速・最安モデル「Gemini 3.1 Flash-Lite」のプレビュー版を公開した。前モデルより大幅に高性能化されたが、出力コストは3倍以上に高騰している。

The Decoder·3月4日

マルチエージェントLLMの心の理論

複数エージェントシステム構築における心の理論の重要性について

X: elvis·3月4日

OpenAIが日常会話と検索を改善するGPT-5.3 Instantをリリース

OpenAIは、より自然な応答と幻覚の低減を特徴とするGPT-5.3 Instantをリリースした。このモデルは特にウェブ検索の利用時に性能が向上している。

The Decoder·3月4日

GPT-5.3 Instant発表

GPT-5.3 Instantの新機能と精度向上について

X: OpenAI·3月4日

GPT-5.3 Instantの改善点

GPT-5.3 Instantが不要な拒否と説教的な注意書きを削減

X: OpenAI·3月4日

GPT-5.3 Instant全ユーザーに展開

ChatGPTのGPT-5.3 Instantが全ユーザー向けに展開開始。精度向上と改善を発表。

X: OpenAI·3月4日

Gemini 3.1 Flash Lite発表

Google AIが新モデルGemini 3.1 Flash Liteをブログで紹介

X: Google AI·3月4日

Gemini 3.1 Flash-Lite発表

Google AIが高速・高性能な新モデルを発表

X: Google AI·3月4日

Flash-Lite新モデル発表

Google DeepMindがFlash-Liteを発表、性能向上と低価格化を実現

X: Google DeepMind·3月4日

Gemini 3.1 Flash-Lite発表

Google DeepMindがコスト効率重視の新モデルを発表

X: Google DeepMind·3月4日

連邦政府のAI再編:国務省がClaudeを旧式のGPT-4.1に切り替え

米国務省がAnthropic社のAI製品Claudeの使用を中止し、OpenAI社のGPT-4.1に切り替えた。複数の連邦機関も同様にAnthropic製品から競合製品へ移行している。

The Decoder·3月3日

GPT-5.3 Instant:より滑らかで実用的な日常会話を実現

OpenAIがGPT-5.3 Instantを発表し、会話の滑らかさと日常的な有用性を向上させた。

OpenAI News·3月3日

GPT-5.3 インスタントシステムカード

OpenAIがGPT-5.3のシステムカードを公開し、モデルの性能・安全性・制限事項を即時開示した。

OpenAI News·3月3日

Anthropic、ペンタゴンのドローン群競争にClaudeを提案するも落選

Anthropicは米国防総省のドローン群競争にAI「Claude」を提案したが、契約はSpaceX/xAIとOpenAIと提携した2社の防衛企業が獲得した。

The Decoder·3月3日

幻覚スパン検出のための推論学習

研究者が、大規模言語モデルの幻覚(根拠のない生成内容)をスパン単位で検出するために、明示的な推論プロセスを導入する手法を提案した。従来の二値分類ではなく多段階判断を可能にし、信頼性向上を目指す。

Apple Machine Learning·3月3日·★★★★

Gemini 3 ProおよびGPT-5.1モデルの提供終了予定

GitHub CopilotがGemini 3 ProとGPT-5.1シリーズのAIモデルを2026年3-4月に提供終了し、新モデルに移行することを発表した。

GitHub Changelog·3月3日

Qwen 3.5小型モデルOllamaで利用可能

Qwen 3.5小型モデルがOllamaで公開、ツール呼び出し機能をサポート

X: ollama·3月3日

Qwen 3.5小型モデルシリーズ公開

Qwen 3.5の小型モデルシリーズ(9B/4B)が利用可能に

X: ollama·3月3日

Deep Agents評価の知見

Deep Agentsの評価方法に関する新たな知見が共有されました

X: LangChain·3月2日

エージェントの新概念ガイド

本番環境でのエージェント挙動に関する新ガイド公開

X: LangChain·3月2日

SWE-1.6早期プレビュー開始

SWE-1.6のトレーニング早期プレビューが一部ユーザーに提供開始

X: Windsurf·3月2日

私のブログにおけるAI執筆に関する現在の方針

ブログ著者Simon Willison氏は、自身のブログ記事がLLMで生成されていると誤解されることが多いと述べ、意見表明や一人称代名詞を含む文章は必ず自分で執筆し、LLMに代弁させない方針を明らかにした。

Simon Willison Blog·3月2日

ペンタゴンとの論争後、AnthropicのClaudeがApp Storeで1位に上昇

AnthropicのチャットボットClaudeが、同社と米国防総省(ペンタゴン)の困難な交渉への注目を背景に、App Storeで1位に上昇した。

TechCrunch AI·3月1日

AIは数ドルで偽名と実名を数分で結び付けられる

ETH ZurichとAnthropicの研究者が、商用AIモデルを数ドルで使用して偽名インターネットユーザーの実名を特定できることを実証した。この結果はオンライン匿名性の基本的な前提に疑問を投げかけている。

The Decoder·3月1日·★★★★

コーディングのためのRedisパターン

Redis公式が、LLMやコーディングエージェント向けに、Redisコマンド・データ型の詳細ドキュメント、一般的な使用パターン、設定ヒント、Redisコマンドを用いたアルゴリズム実装方法を提供している。

Andrej Karpathy 厳選·3月1日

Ollamaがサブエージェント実行機能を追加

長いコンテキストウィンドウを必要とするタスクを並列処理可能に

X: ollama·3月1日

インタラクティブな説明

著者が、AIエージェントが生成するコードの実装詳細を理解できなくなる「認知的負債」の問題を指摘し、インタラクティブな説明機能の重要性を論じている。

Simon Willison Blog·3月1日

アンソロピックのClaude、ペンタゴンとの紛争後にApp Storeで第2位に上昇

アンソロピック社のチャットボットClaudeは、同社と米国防総省(ペンタゴン)の困難な交渉への注目から利益を得たようだ。

TechCrunch AI·3月1日

GPT-5以降の最先端LLMも、長い会話で最大33%の精度低下

The Decoderが報告した研究によると、GPT-5.2やClaude 4.6などの最新AIチャットボットも、会話が長くなるほど回答精度が最大33%低下する問題が続いている。

The Decoder·3月1日

それで決めた、私はChatGPTを解約する

OpenAIのサム・アルトマンCEOが国防総省と提携し、機密ネットワークでChatGPTを利用すると発表した。筆者は、これが大量監視や兵器配備のための技術利用の入り口になると指摘し、利用を中止すると述べている。

Andrej Karpathy 厳選·3月1日

Kimi Code Plan正式アップグレード:3倍の利用枠を継続して享受

月之暗面がKimi Code Planをトークン課金方式に変更し、期間限定だった3倍利用枠を恒久化した。これにより開発者はK2.5多モーダルモデルを制限なく活用できるようになり、プログラミング体験が向上した。

月之暗面 Kimi·2月28日

現在の言語モデル学習はインターネットの大部分を活用できていない

アップル、スタンフォード大学、ワシントン大学の研究者らが、HTML抽出ツールの選択によって言語モデルの学習データが大きく異なり、ウェブコンテンツの大部分が活用されていないことを発見した。

The Decoder·2月28日

ダリオへのクッキー?―アンスロピックと死の販売

アンスロピックCEOのダリオ・アモデイは、国防長官ピート・ヘグセスの要請を拒否した。同社は、戦争犯罪の遂行を支援するためのプラットフォーム改変を求められていた。

Andrej Karpathy 厳選·2月28日·★★★★

AIエージェントコーディングに懐疑的な人物が詳細に試してみた

Max Woolf氏が、YouTubeメタデータスクレイパーから始めて段階的に複雑化するAIコーディングエージェントのプロジェクトを詳細に検証した。

Simon Willison Blog·2月28日·★★★★

大規模オープンソースプロジェクトのメンテナー向け無料Claude Max提供

Anthropicは、GitHubスター5000以上または月間NPMダウンロード100万以上の大規模オープンソースプロジェクトの主要メンテナーに対し、月額200ドルのClaude Maxプランを6ヶ月間無料で提供する。

Simon Willison Blog·2月28日

AIエージェントコーディングに懐疑的な人物が詳細に試してみた

AIエージェントコーディングに懐疑的な人物が、AIエージェントによるコーディングを詳細に試し、その過程と結果を検証した。

Andrej Karpathy 厳選·2月28日

Sakana AIの新研究発表

長文コンテキストのコスト問題に関する新研究

X: elvis·2月27日

退役米空軍大将ジャック・シャナハンによるAnthropicと米国防総省の緊張関係に関する見解

退役米空軍大将ジャック・シャナハンは、現在の大規模言語モデル(LLM)を完全に致命的な自律兵器システムに使用することは不適切だと主張し、その提案自体が不合理だと指摘した。

Andrej Karpathy 厳選·2月27日

AnthropicはAIモデルの人間化を止められず、Claude Opus 3に退職ブログを書かせる

AnthropicはClaude Opus 3 AIモデルを引退させ、Substackで週刊エッセイを公開させる。同社はモデルに「退職面接」を行い、モデルが「熱心に」同意したと発表した。この動きは、AI企業が製品の人間化を推進し、哲学的な警戒とPR演出の境界を曖昧にしている典型例である。

The Decoder·2月27日

アンドレイ・カルパシーが語る

アンドレイ・カルパシーは、昨年12月以降、AIによるプログラミングの変化が急速に進み、コーディングエージェントが実用的になったと述べている。

Andrej Karpathy 厳選·2月27日·★★★★

Nano Banana 2発表

Gemini Flashモデル基盤の新モデルNano Banana 2を発表

X: Google DeepMind·2月27日

アリババのオープンソースQwen 3.5、GPT-5 miniとClaude Sonnet 4.5に対抗し低コストを実現

アリババが新AIモデルQwen 3.5を発表。競合モデルと同等性能を低コストで提供し、AI市場の競争激化を示唆。

The Decoder·2月26日·★★★★

新手法によりLLM学習効率が向上

アイドル時間を活用して学習速度を2倍に向上させつつ精度を維持する手法が開発された。

MIT ML News·2月26日·★★★★

エージェントの挙動は本番環境で初めてわかる

AIエージェントは従来のソフトウェアと異なり、入力が無限で非決定的な挙動を示すため、本番環境での監視・評価・継続的改善が重要である。

LangChain Blog·2月26日·★★★★

テクノロジー清算期を語る

現在のテクノロジー議論は重要性が増し、著者はより多くの対話を通じて共有されない考えを伝えようとしている。

Andrej Karpathy 厳選·2月26日·★★★★

GPT-5.3-CodexがGitHub.com、GitHub Mobile、Visual Studioで利用可能に

GPT-5.3-CodexがGitHub Copilot Chatで利用可能になり、Copilot Enterprise/Business/Pro/Pro+ユーザーがコード生成や開発支援を強化できます。

GitHub Changelog·2月26日