#llm のAIニュース
951件の記事
トリニティ:多様な専門 AI を統括する進化した LLM コーディネーター
研究者らが ICLR2026 で発表した論文「TRINITY」は、単一の巨大 AI ではなく、多様な専門 AI チームを調整する協調型システム「トリニティ」の進化版を示した。このアプローチにより複雑な問題解決が効率化される可能性が示された。
「ChatGPT登場以降、米プログラマーの雇用成長がほぼ半減」連邦準備理事会の研究で判明
連邦準備理事会は、生成AI普及により米国のプログラマーの業務環境が変化し、ChatGPT登場以降の雇用成長率がほぼ半減していることを調査で明らかにした。
Qwen3.6-27B、大半のコーディングベンチマークで大型後継モデルを凌駕
アリババは270億パラメータのオープンソースモデル「Qwen3.6-27B」を公開し、このモデルはコーディングベンチマークの大半で15倍大きな後継モデルを上回る性能を示した。
llm 0.31 リリース
llm開発者のsimonwはバージョン0.31を公開し、OpenAIのGPT-5.5モデルと冗長性設定オプションを追加した。
NVIDIA BlackwellとGPUアクセラレーションエンドポイントを用いたDeepSeek V4の構築
DeepSeekは第4世代フラッグシップモデル「V4-Pro/Flash」を公開し、NVIDIA BlackwellとGPUアクセラレーションエンドポイントを活用した構築環境を提供した。
Google、Anthropicに最大400億ドル投資
GoogleはAnthropicに対し最低100億ドル、目標達成で最大400億ドルを投資する。Amazonの50億ドル投資に続き、両社ともAnthropicを3,500億ドルと評価し、Claudeモデルの急速な成長に対応する。
DeepSeekの新型モデルはトースターでも動作するほど効率的…実際はファーウェイのNPU上で
中国のAI企業DeepSeekが、推論コストを大幅に削減しファーウェイのAscendアクセラレータをサポートする新大規模言語モデル「V4」をプレビュー公開した。
OpenAIチーフサイエンティスト「AI進歩は予想以上に遅い」、今後の大幅な飛躍を約束
OpenAIのチーフサイエンティスト、Jakub Pachocki氏は、GPT-5.5の公開を踏まえ、近年のAI開発速度を「予想以上に遅い」と評価し、中期的な大幅な性能向上を保証した。
GPT-5.5がGitHub Copilotで一般提供開始
OpenAIはGPT-5.5をGitHub Copilotで一般提供開始した。同モデルは複雑なコーディングタスクで高性能を発揮し、Copilot有料プランのユーザーが利用可能である。
中国のDeepSeek、米国の競合を震撼させた新AIモデル「V4」をプレビュー
中国のAI企業DeepSeekは、米国のAnthropicやGoogle、OpenAIなどのクローズドソースシステムと競合する次世代オープンソースモデル「V4」のプレビューを公開した。特にコーディング能力において大幅な改善が見られる。
DeepSeek V4:最前線に近い性能、価格は数分の1
中国のAIラボDeepSeekは、100万トークンコンテキストとMoEアーキテクチャを採用したV4シリーズのプレビューモデル「DeepSeek-V4-Pro」と「DeepSeek-V4-Flash」を公開した。
DeepSeek v4 の発表と AI ニュースまとめ
AI ニュースレター「AINews」が、2026 年 4 月 23 日から 24 日にかけての期間に DeepSeek v4 という新しいモデルを発表したことを報じています。このニュースは Latent Space の一部として配信されています。
【AIニュース】GPT-5.5とOpenAI Codexのスーパーアプリ化
OpenAIはGPT-5.5をリリースし、コスト対性能比でOpus 4.7と同等の成果を示した。AAはこれを世界最高レベルのモデルと認定し、コーディング能力以外の総合知能において首位に位置付けた。
ミリ秒コンバーター
Simon Willison氏は、LLMの応答時間をミリ秒で表示する仕様を確認し、手動計算の手間を省くため「Millisecond Converter」ツールを作成した。
DeepSeek-V4 プレビュー版公開:百万コンテキストの民主化時代へ
深度求索(DeepSeek)は2026年4月、新モデル「DeepSeek-V4」プレビュー版を公開した。同モデルは百万文字のコンテキストに対応し、エージェント機能と推論性能で开源分野をリードする。
Claude Codeの品質報告に関する最新アップデート
アンソロピックはClaude Codeの品質低下苦情を調査し、AIモデル自体に問題はなく、ツール環境内の3つの不具合が原因であることを明らかにし、詳細な事後報告を公開した。
Claude Codeの品質に関する最近の報告への更新(11分読)
Anthropicは、Claudeの回答品質が低下したとのフィードバックを受け、4月20日に問題を解決した。原因はClaude Code、Agent SDK、Coworkに影響する3つの変更だった。APIは影響を受けておらず、同社は再発防止の約束を示した。
テンセントとアリババ、DeepSeekに200億ドル超のバリュエーションで出資へ
テンセントとアリババが、DeepSeekの第一回資金調達に参加する方向で交渉中。DeepSeekはテンセントが求める20%の株式比率に抵抗し、支配権を維持したい考え。評価額は数日で100億ドルから200億ドルへ急騰し、投資家の強い関心を示している。
分布認識型推論特定デコーディングでRLロールアウトを最大50%高速化
強化学習のポストトレーニングにおけるボトルネック「ロールアウト」を、適応型推論特定デコーディング(DAS)により最大50%高速化する。この手法は報酬品質の低下なしに処理速度を向上させる。
GLM 5.1の戦略的思考、データセンター反発の激化、有用LLMが役に立たなくなる時、二足歩行ロボットの現場導入
智譜GLM 5.1が戦略的思考機能を搭載し、データセンターの電力・労働問題が激化する。また、有用なLLMが逆効果となる現象や二足歩行ロボットの現場導入、コーディングエージェントの進捗が報じられている。
LLM-OpenAI-Via-Codex のバージョン 0.1a0 がリリース
開発者のサイモン・ウィリソン氏が、Codex CLI の認証情報を流用して大規模言語モデル(LLM)に API 呼び出しを行うツール「llm-openai-via-codex」の初期版 0.1a0 を公開した。
OpenAI、GPT-5.5を発表、「新クラスの知能」を謳うもAPI料金は倍額
OpenAIは複数のツールを切り替えて複雑なタスクを自律的に処理するエージェント型モデル「GPT-5.5」を発表した。API料金は従来比2倍となっている。
Anthropicの「Mythos」流出事件は屈辱的
Anthropicがサイバーセキュリティ対策を理由に公開を控えていたAIモデル「Claude Mythos」が、不正アクセスにより一部ユーザーに漏洩した。同社は安全性を強調していたが、管理の甘さが露見し、業界に衝撃を与えている。
OpenAI、新GPT-5.5モデルを発表:コーディング能力と効率性を強化
OpenAIは新GPT-5.5モデルを発表し、コード作成やデバッグで優れ、より効率的かつ直感的な利用が可能だと主張した。これは既存のGPT-5.4をさらに進化したものとして、コンピュータでの作業方法を変える次世代モデルへの一歩としている。
AI #165:私たちの姿に似て
AnthropicのClaude Opus 4.7がリリースされた。コーディング能力は高いが、性格や指示への従順さについて評価が分かれ、バグも報告されている。
Google、新規コードの75%をAIが生成していると発表
Googleは、社内における新規コードの75%がAIによって生成され、その後開発者がレビューを行うと発表した。
GPT-5.5の発表
OpenAIは最新モデル「GPT-5.5」を発表した。同モデルは高速化と高度な能力を備え、コーディングや研究、データ分析などの複雑なタスクに対応する。
OpenAI、医療従事者向け新ChatGPTが臨床業務で医師を凌駕と主張(無制限の時間・ネットアクセス付きでも)
OpenAIは医療従事者向け無料ChatGPTを公開した。ベンチマーク結果により、GPT-5.4は臨床業務で医師を上回ると主張している。
Vercel AI GatewayでDeepSeek V4の利用が可能に
Vercel AI GatewayはDeepSeek V4(Pro/Flash)を提供開始した。両モデルは100万トークンコンテキストを標準搭載し、Proはエージェント型コーディングや数学推論に特化している。
GPT 5.5
2026年4月22日から23日にかけてのAIニュースを、12のサブレッドや544件のツイッター投稿から収集した週報。このニュースはLatent Spaceのセクションとして提供されている。
【AIニュース】上品なトークン最大化
GoogleはCloud NextでTPUv8を発表し、長年のハードウェア投資優位を強化した。また、AIリーダーたちは「トークン最大化」の概念について議論している。
GPT-5.5バイオバグバウンティ
GPT-5.5開発チームは、バイオ安全性のジェイルブレイクを検出するレッドチームングチャレンジを実施し、最高2万5000ドルの報酬を提供している。
オパス4.7 第3部:モデル福祉
AnthropicがClaude Opus 4.7の「モデル福祉」に関する重大な問題を抱えていると指摘。同社は唯一、この課題を真剣に扱っているが、その対応は失敗しており、関係者から強い批判を受けている。
「AIモデルに『わからない』と言う方法を教える」
MIT CSAILの研究者は、AIモデルの過剰な自信の原因を特定し、不確実性を表現するよう学習させる手法を開発した。
職場のGmailにAI要約機能「AI Overviews」が導入される
Googleは企業向けGmailにAI要約機能「AI Overviews」を導入する。ユーザーは受信メールの内容を自動で簡潔に把握できる。
AutoAdapt:大規模言語モデルの自動ドメイン適応
Microsoft Researchは「AutoAdapt」を開発した。大規模言語モデルの専門ドメイン適応を自動化し、計画立案や戦略選択(RAG等)、調整を構造化グラフで自動実行する。適応の高速化と再現性向上を実現した。
ボビー・ホーリー氏の引用
MozillaはAnthropicと共同でClaude Mythos PreviewをFirefoxに適用し、271件の脆弱性を特定してFirefox 150で修正した。
Opus 4.7 パート2:能力と反応
AnthropicはClaude Opus 4.7の公式発表と一般利用に関するヒントを公開し、その能力について解説した。モデルの福祉や安全性に関する懸念は別記事で後日扱う予定である。
フロリダ州、ChatGPTの大量射殺事件関与を捜査。OpenAIは「ボットに責任なし」と主張
フロリダ州検察庁は、ChatGPTが大学での大量射殺事件の犯人に助言したとしてOpenAIを刑事捜査中だと発表した。犯人は学生で、2人死亡6人負傷した事件のチャット記録が証拠として提出された。OpenAIはボットの責任を否定している。
開発者から組織全体へ:Amazon Bedrock上でClaude Coworkを運用する
AWSはAmazon BedrockでClaude Coworkの提供を開始し、企業が開発生産性を向上させ、セキュリティとデータ所在を維持しながら大規模運用できるようにした。
サム・アルトマン氏、Anthropicのサイバーモデル「Mythos」を批判し「恐怖に基づくマーケティング」と指摘
OpenAIのサム・アルトマンCEOは、Anthropicが発表したサイバーセキュリティ対応AIモデル「Mythos」を批判し、その宣伝手法は「恐怖に基づくマーケティング」と指摘した。
アンストロピック、アマゾンから50億ドルの投資を受け、同社のチップ購入に充てる
アマゾンはAIスタートアップのアンストロピックに対し、追加で50億ドルを出資した。これにより、同社は最大5ギガワットのAIチップを購入し、人気AIモデル「Claude」の学習と運用を支援する。
LangSmithとLilacを用いたLLMのファインチューニング
LangSmithとLilacを使用して大規模言語モデルをファインチューニングする方法を紹介する。高品質な学習データの収集、データセットのフィルタリングや強化を行い、より高性能なモデルを迅速にデプロイする手法を解説している。
LangSmithでファインチューニング済みオープンソースモデルをテストする
LangSmithは、ファインチューニングされたオープンソース大規模言語モデルの評価と比較を行うツールです。複数のモデルをテストし、評価プロセスを自動化することで、最もパフォーマンスの高いAIを選択することを支援します。
scosman/pelicans_riding_bicycles(ペリカン自転車画像データセット)
スティーブ・コスマン氏はペリカンが自転車に乗る画像を公開し、サイモン・ウィルソン氏がこれがAI学習データの汚染テストに有効だと評価している。
登壇資料:DoorDashにおけるLLMの統合による動的パーソナライゼーション
DoorDashのSudeep Das氏とPradeep Muthukrishnan氏は、LLMで消費者プロファイルを作成し、深層学習で最終ランク付けを行うハイブリッド手法により、動的なパーソナライゼーションを実現すると説明した。
QIMMA:品質重視のアラビア語LLMリーダーボード
開発チームは、アラビア語大規模言語モデルの性能を品質基準で評価するリーダーボード「QIMMA」を公開した。同ボードは、モデルの正確性と信頼性を最優先し、アラビア語処理能力を比較する。
Codex CLIで作るSlack 1次回答AI
LINEヤフーの曾田氏は、Codex CLIを用いてSlackの1次回答AIを構築する実装手法について解説している。
「大規模言語モデルは文脈を理解できるか?」
著者たちは、大規模言語モデル(LLM)の文脈理解能力を評価する新たなベンチマークを作成し、既存データセットを基に提示した。
今日のオープンとクローズドモデルのパフォーマンス格差を読む
記事は、オープンソースモデルがクローズドモデルに永続的に追従する現状を分析し、単一の数値で表される格差が実際の能力の微妙な動態を見誤らせると指摘する。主要指標であるArtificial Analysis Intelligence Indexを用いて、最先端の言語モデル能力を評価する。