#llm のAIニュース

951件の記事

トリニティ:多様な専門 AI を統括する進化した LLM コーディネーター

研究者らが ICLR2026 で発表した論文「TRINITY」は、単一の巨大 AI ではなく、多様な専門 AI チームを調整する協調型システム「トリニティ」の進化版を示した。このアプローチにより複雑な問題解決が効率化される可能性が示された。

Sakana AI·4月26日·★★★★★

「ChatGPT登場以降、米プログラマーの雇用成長がほぼ半減」連邦準備理事会の研究で判明

連邦準備理事会は、生成AI普及により米国のプログラマーの業務環境が変化し、ChatGPT登場以降の雇用成長率がほぼ半減していることを調査で明らかにした。

The Decoder·4月25日·★★★★

Qwen3.6-27B、大半のコーディングベンチマークで大型後継モデルを凌駕

アリババは270億パラメータのオープンソースモデル「Qwen3.6-27B」を公開し、このモデルはコーディングベンチマークの大半で15倍大きな後継モデルを上回る性能を示した。

The Decoder·4月25日·★★★★

llm 0.31 リリース

llm開発者のsimonwはバージョン0.31を公開し、OpenAIのGPT-5.5モデルと冗長性設定オプションを追加した。

Simon Willison Blog·4月25日

NVIDIA BlackwellとGPUアクセラレーションエンドポイントを用いたDeepSeek V4の構築

DeepSeekは第4世代フラッグシップモデル「V4-Pro/Flash」を公開し、NVIDIA BlackwellとGPUアクセラレーションエンドポイントを活用した構築環境を提供した。

NVIDIA Developer Blog·4月25日·★★★★

Google、Anthropicに最大400億ドル投資

GoogleはAnthropicに対し最低100億ドル、目標達成で最大400億ドルを投資する。Amazonの50億ドル投資に続き、両社ともAnthropicを3,500億ドルと評価し、Claudeモデルの急速な成長に対応する。

Ars Technica AI·4月25日·★★★★

DeepSeekの新型モデルはトースターでも動作するほど効率的…実際はファーウェイのNPU上で

中国のAI企業DeepSeekが、推論コストを大幅に削減しファーウェイのAscendアクセラレータをサポートする新大規模言語モデル「V4」をプレビュー公開した。

The Register AI/ML·4月25日·★★★★

OpenAIチーフサイエンティスト「AI進歩は予想以上に遅い」、今後の大幅な飛躍を約束

OpenAIのチーフサイエンティスト、Jakub Pachocki氏は、GPT-5.5の公開を踏まえ、近年のAI開発速度を「予想以上に遅い」と評価し、中期的な大幅な性能向上を保証した。

The Decoder·4月25日·★★★★

GPT-5.5がGitHub Copilotで一般提供開始

OpenAIはGPT-5.5をGitHub Copilotで一般提供開始した。同モデルは複雑なコーディングタスクで高性能を発揮し、Copilot有料プランのユーザーが利用可能である。

GitHub Changelog·4月25日·★★★★

中国のDeepSeek、米国の競合を震撼させた新AIモデル「V4」をプレビュー

中国のAI企業DeepSeekは、米国のAnthropicやGoogle、OpenAIなどのクローズドソースシステムと競合する次世代オープンソースモデル「V4」のプレビューを公開した。特にコーディング能力において大幅な改善が見られる。

The Verge AI·4月24日·★★★★

DeepSeek V4:最前線に近い性能、価格は数分の1

中国のAIラボDeepSeekは、100万トークンコンテキストとMoEアーキテクチャを採用したV4シリーズのプレビューモデル「DeepSeek-V4-Pro」と「DeepSeek-V4-Flash」を公開した。

Simon Willison Blog·4月24日·★★★★★

DeepSeek v4 の発表と AI ニュースまとめ

AI ニュースレター「AINews」が、2026 年 4 月 23 日から 24 日にかけての期間に DeepSeek v4 という新しいモデルを発表したことを報じています。このニュースは Latent Space の一部として配信されています。

Smol AI News·4月24日·★★★★★

【AIニュース】GPT-5.5とOpenAI Codexのスーパーアプリ化

OpenAIはGPT-5.5をリリースし、コスト対性能比でOpus 4.7と同等の成果を示した。AAはこれを世界最高レベルのモデルと認定し、コーディング能力以外の総合知能において首位に位置付けた。

Latent Space·4月24日·★★★★

ミリ秒コンバーター

Simon Willison氏は、LLMの応答時間をミリ秒で表示する仕様を確認し、手動計算の手間を省くため「Millisecond Converter」ツールを作成した。

Simon Willison Blog·4月24日

DeepSeek-V4 プレビュー版公開:百万コンテキストの民主化時代へ

深度求索(DeepSeek)は2026年4月、新モデル「DeepSeek-V4」プレビュー版を公開した。同モデルは百万文字のコンテキストに対応し、エージェント機能と推論性能で开源分野をリードする。

DeepSeek Blog·4月24日·★★★★

Claude Codeの品質報告に関する最新アップデート

アンソロピックはClaude Codeの品質低下苦情を調査し、AIモデル自体に問題はなく、ツール環境内の3つの不具合が原因であることを明らかにし、詳細な事後報告を公開した。

Simon Willison Blog·4月24日·★★★★

Claude Codeの品質に関する最近の報告への更新(11分読)

Anthropicは、Claudeの回答品質が低下したとのフィードバックを受け、4月20日に問題を解決した。原因はClaude Code、Agent SDK、Coworkに影響する3つの変更だった。APIは影響を受けておらず、同社は再発防止の約束を示した。

TLDR AI·4月24日

テンセントとアリババ、DeepSeekに200億ドル超のバリュエーションで出資へ

テンセントとアリババが、DeepSeekの第一回資金調達に参加する方向で交渉中。DeepSeekはテンセントが求める20%の株式比率に抵抗し、支配権を維持したい考え。評価額は数日で100億ドルから200億ドルへ急騰し、投資家の強い関心を示している。

TLDR AI·4月24日·★★★★

分布認識型推論特定デコーディングでRLロールアウトを最大50%高速化

強化学習のポストトレーニングにおけるボトルネック「ロールアウト」を、適応型推論特定デコーディング(DAS)により最大50%高速化する。この手法は報酬品質の低下なしに処理速度を向上させる。

Together AI Blog·4月24日·★★★★

GLM 5.1の戦略的思考、データセンター反発の激化、有用LLMが役に立たなくなる時、二足歩行ロボットの現場導入

智譜GLM 5.1が戦略的思考機能を搭載し、データセンターの電力・労働問題が激化する。また、有用なLLMが逆効果となる現象や二足歩行ロボットの現場導入、コーディングエージェントの進捗が報じられている。

The Batch·4月24日

LLM-OpenAI-Via-Codex のバージョン 0.1a0 がリリース

開発者のサイモン・ウィリソン氏が、Codex CLI の認証情報を流用して大規模言語モデル(LLM)に API 呼び出しを行うツール「llm-openai-via-codex」の初期版 0.1a0 を公開した。

Simon Willison Blog·4月24日

OpenAI、GPT-5.5を発表、「新クラスの知能」を謳うもAPI料金は倍額

OpenAIは複数のツールを切り替えて複雑なタスクを自律的に処理するエージェント型モデル「GPT-5.5」を発表した。API料金は従来比2倍となっている。

The Decoder·4月24日·★★★★

Anthropicの「Mythos」流出事件は屈辱的

Anthropicがサイバーセキュリティ対策を理由に公開を控えていたAIモデル「Claude Mythos」が、不正アクセスにより一部ユーザーに漏洩した。同社は安全性を強調していたが、管理の甘さが露見し、業界に衝撃を与えている。

The Verge AI·4月24日

OpenAI、新GPT-5.5モデルを発表:コーディング能力と効率性を強化

OpenAIは新GPT-5.5モデルを発表し、コード作成やデバッグで優れ、より効率的かつ直感的な利用が可能だと主張した。これは既存のGPT-5.4をさらに進化したものとして、コンピュータでの作業方法を変える次世代モデルへの一歩としている。

The Verge AI·4月24日·★★★★

AI #165:私たちの姿に似て

AnthropicのClaude Opus 4.7がリリースされた。コーディング能力は高いが、性格や指示への従順さについて評価が分かれ、バグも報告されている。

The Zvi·4月23日·★★★★

Google、新規コードの75%をAIが生成していると発表

Googleは、社内における新規コードの75%がAIによって生成され、その後開発者がレビューを行うと発表した。

The Decoder·4月23日·★★★★

GPT-5.5の発表

OpenAIは最新モデル「GPT-5.5」を発表した。同モデルは高速化と高度な能力を備え、コーディングや研究、データ分析などの複雑なタスクに対応する。

OpenAI News·4月23日

OpenAI、医療従事者向け新ChatGPTが臨床業務で医師を凌駕と主張(無制限の時間・ネットアクセス付きでも)

OpenAIは医療従事者向け無料ChatGPTを公開した。ベンチマーク結果により、GPT-5.4は臨床業務で医師を上回ると主張している。

The Decoder·4月23日·★★★★

Vercel AI GatewayでDeepSeek V4の利用が可能に

Vercel AI GatewayはDeepSeek V4(Pro/Flash)を提供開始した。両モデルは100万トークンコンテキストを標準搭載し、Proはエージェント型コーディングや数学推論に特化している。

Vercel Blog·4月23日·★★★★

GPT 5.5

2026年4月22日から23日にかけてのAIニュースを、12のサブレッドや544件のツイッター投稿から収集した週報。このニュースはLatent Spaceのセクションとして提供されている。

Smol AI News·4月23日·★★★★★

【AIニュース】上品なトークン最大化

GoogleはCloud NextでTPUv8を発表し、長年のハードウェア投資優位を強化した。また、AIリーダーたちは「トークン最大化」の概念について議論している。

Latent Space·4月23日·★★★★

GPT-5.5バイオバグバウンティ

GPT-5.5開発チームは、バイオ安全性のジェイルブレイクを検出するレッドチームングチャレンジを実施し、最高2万5000ドルの報酬を提供している。

OpenAI News·4月23日

オパス4.7 第3部:モデル福祉

AnthropicがClaude Opus 4.7の「モデル福祉」に関する重大な問題を抱えていると指摘。同社は唯一、この課題を真剣に扱っているが、その対応は失敗しており、関係者から強い批判を受けている。

The Zvi·4月23日·★★★★

「AIモデルに『わからない』と言う方法を教える」

MIT CSAILの研究者は、AIモデルの過剰な自信の原因を特定し、不確実性を表現するよう学習させる手法を開発した。

MIT ML News·4月23日·★★★★

職場のGmailにAI要約機能「AI Overviews」が導入される

Googleは企業向けGmailにAI要約機能「AI Overviews」を導入する。ユーザーは受信メールの内容を自動で簡潔に把握できる。

TechCrunch AI·4月23日

AutoAdapt:大規模言語モデルの自動ドメイン適応

Microsoft Researchは「AutoAdapt」を開発した。大規模言語モデルの専門ドメイン適応を自動化し、計画立案や戦略選択(RAG等)、調整を構造化グラフで自動実行する。適応の高速化と再現性向上を実現した。

Microsoft Research·4月23日·★★★★

ボビー・ホーリー氏の引用

MozillaはAnthropicと共同でClaude Mythos PreviewをFirefoxに適用し、271件の脆弱性を特定してFirefox 150で修正した。

Simon Willison Blog·4月22日·★★★★

Opus 4.7 パート2:能力と反応

AnthropicはClaude Opus 4.7の公式発表と一般利用に関するヒントを公開し、その能力について解説した。モデルの福祉や安全性に関する懸念は別記事で後日扱う予定である。

The Zvi·4月22日·★★★★

フロリダ州、ChatGPTの大量射殺事件関与を捜査。OpenAIは「ボットに責任なし」と主張

フロリダ州検察庁は、ChatGPTが大学での大量射殺事件の犯人に助言したとしてOpenAIを刑事捜査中だと発表した。犯人は学生で、2人死亡6人負傷した事件のチャット記録が証拠として提出された。OpenAIはボットの責任を否定している。

Ars Technica AI·4月22日·★★★★★

開発者から組織全体へ:Amazon Bedrock上でClaude Coworkを運用する

AWSはAmazon BedrockでClaude Coworkの提供を開始し、企業が開発生産性を向上させ、セキュリティとデータ所在を維持しながら大規模運用できるようにした。

AWS Machine Learning Blog·4月22日·★★★★

サム・アルトマン氏、Anthropicのサイバーモデル「Mythos」を批判し「恐怖に基づくマーケティング」と指摘

OpenAIのサム・アルトマンCEOは、Anthropicが発表したサイバーセキュリティ対応AIモデル「Mythos」を批判し、その宣伝手法は「恐怖に基づくマーケティング」と指摘した。

TechCrunch AI·4月22日

アンストロピック、アマゾンから50億ドルの投資を受け、同社のチップ購入に充てる

アマゾンはAIスタートアップのアンストロピックに対し、追加で50億ドルを出資した。これにより、同社は最大5ギガワットのAIチップを購入し、人気AIモデル「Claude」の学習と運用を支援する。

Ars Technica AI·4月22日·★★★★

LangSmithとLilacを用いたLLMのファインチューニング

LangSmithとLilacを使用して大規模言語モデルをファインチューニングする方法を紹介する。高品質な学習データの収集、データセットのフィルタリングや強化を行い、より高性能なモデルを迅速にデプロイする手法を解説している。

LangChain Blog·4月22日

LangSmithでファインチューニング済みオープンソースモデルをテストする

LangSmithは、ファインチューニングされたオープンソース大規模言語モデルの評価と比較を行うツールです。複数のモデルをテストし、評価プロセスを自動化することで、最もパフォーマンスの高いAIを選択することを支援します。

LangChain Blog·4月22日

scosman/pelicans_riding_bicycles(ペリカン自転車画像データセット)

スティーブ・コスマン氏はペリカンが自転車に乗る画像を公開し、サイモン・ウィルソン氏がこれがAI学習データの汚染テストに有効だと評価している。

Simon Willison Blog·4月22日

登壇資料:DoorDashにおけるLLMの統合による動的パーソナライゼーション

DoorDashのSudeep Das氏とPradeep Muthukrishnan氏は、LLMで消費者プロファイルを作成し、深層学習で最終ランク付けを行うハイブリッド手法により、動的なパーソナライゼーションを実現すると説明した。

InfoQ·4月21日

QIMMA:品質重視のアラビア語LLMリーダーボード

開発チームは、アラビア語大規模言語モデルの性能を品質基準で評価するリーダーボード「QIMMA」を公開した。同ボードは、モデルの正確性と信頼性を最優先し、アラビア語処理能力を比較する。

Hugging Face Blog·4月21日

Codex CLIで作るSlack 1次回答AI

LINEヤフーの曾田氏は、Codex CLIを用いてSlackの1次回答AIを構築する実装手法について解説している。

LY Corp Tech Blog·4月21日

「大規模言語モデルは文脈を理解できるか?」

著者たちは、大規模言語モデル(LLM)の文脈理解能力を評価する新たなベンチマークを作成し、既存データセットを基に提示した。

Apple Machine Learning·4月21日·★★★★

今日のオープンとクローズドモデルのパフォーマンス格差を読む

記事は、オープンソースモデルがクローズドモデルに永続的に追従する現状を分析し、単一の数値で表される格差が実際の能力の微妙な動態を見誤らせると指摘する。主要指標であるArtificial Analysis Intelligence Indexを用いて、最先端の言語モデル能力を評価する。

Interconnects·4月21日·★★★★