#llm のAIニュース

952件の記事

今日のオープンとクローズドモデルのパフォーマンス格差を読む

記事は、オープンソースモデルがクローズドモデルに永続的に追従する現状を分析し、単一の数値で表される格差が実際の能力の微妙な動態を見誤らせると指摘する。主要指標であるArtificial Analysis Intelligence Indexを用いて、最先端の言語モデル能力を評価する。

Interconnects·4月21日·★★★★

llm-openrouter 0.6 のリリース

Simon Willison は llm-openrouter バージョン 0.6 をリリースした。このアップデートでは、利用可能なモデル一覧をキャッシュ期限を待たずに更新する「refresh」コマンドが追加された。これにより、ユーザーは Kimi 2.6 など新モデルの提供開始を即座に確認・利用できるようになる。

Simon Willison Blog·4月21日

オープンウェイト「Kimi K2.6」がエージェント群でGPT-5.4とClaude Opus 4.6に挑戦

Moonshot AIはオープンウェイトモデル「Kimi K2.6」を公開した。同モデルはコーディングベンチでGPT-5.4やClaude Opus 4.6と同等の性能を示し、最大300個のエージェントを並列実行する。

The Decoder·4月21日·★★★★

思考の種：LLM に分布に忠実で多様な生成を促すプロンプト手法

研究チームは、大規模言語モデル（LLM）が確率分布に従って出力する際に生じるバイアスを指摘し、公平なコイン投げやアイデア生成において偏りを防ぐための新しいプロンプト手法「String Seed of Thought」を発表した。

Sakana AI·4月21日·★★★★

Anthropicの「Mythos」AIモデルが加速するハッキングへの懸念を招く

サンフランシスコのスタートアップ企業Anthropicは、サイバーセキュリティに特化した新AIモデル「Mythos」を公開した。このモデルは人間の速度を超えてソフトウェアの脆弱性を検出する一方、攻撃に利用可能なエクスプロイトコードも生成可能であり、政府や企業からセキュリティ防御の遅れを懸念する声が上がっている。

Ars Technica AI·4月20日·★★★★

1年の沈黙を経て、MetaがLLM競争に再参入

メタは新モデル「Muse Spark」および158ページの安全報告書を公開し、大規模言語模型分野での事業再始動を示した。マーク・ザッカーバーグ氏が莫大な資金を投じたこの動きは、同社のAI業界における将来の役割と戦略的意図を示す重要な指標である。

Understanding AI·4月20日·★★★★

カーネギーメロン大学、ICLR 2026に194論文を発表

カーネギーメロン大学の研究者らは、第14回ICLR 2026において計194本の論文を発表している。

ML@CMU·4月20日

個別訓練、統合結合：Mixture-of-Expertsを用いたモジュール化ポストトレーニング

Google ResearchはBAR手法を提案した。これは言語モデルの能力ごとにドメイン専門家を独立して訓練し、単一のMoEモデルに統合するプロセスである。この手法により、特定の専門家のアップグレードが他の専門家に影響を与えずに行える。

Allen AI (AI2)·4月20日·★★★★

AnthropicとAmazon、最大5ギガワットの新たなコンピュート供給で提携を拡大

AnthropicとAmazonは、最大5ギガワットの新たな計算資源（コンピュート）供給で提携を拡大する。

Anthropic News·4月20日·★★★★

初のトークン数分析で明らかに：AnthropicのOpus 4.7は価格据え置きにも関わらず4.6より大幅に高コスト

AnthropicがOpus 4.7のトークン価格を前モデルと同額に据え置いたが、新しいトークナイザーにより同テキストが最大47％多くのトークンに分割されるため、実際のリクエストコストが大幅に増加していることが判明した。

The Decoder·4月19日

ClaudeのシステムプロンプトをGitタイムラインとして

AnthropicがClaudeチャットのシステムプロンプトを公開し、GitHubリポジトリで各モデルごとのファイルとして管理している。研究者がこの公開情報を分析し、システムプロンプトの変更履歴を追跡できる環境を構築した。

Simon Willison Blog·4月18日

LLMアーキテクチャを理解するための私のワークフロー

著者が記事や講演、LLM-Galleryで使用するLLMアーキテクチャの図面作成ワークフローを公開した。公式技術文書から始めるが、最近の論文は詳細不足のため、公開されたモデル重みから推測する手法を説明している。

Sebastian Raschka·4月18日

ホワイトハウス、AnthropicのMythosモデルの連邦政府による採用可否を検討

AnthropicのCEOダリオ・アモデイがホワイトハウスで国防総省との数ヶ月にわたる対立を解消するため会談し、同社の新AIモデル「Mythos」のサイバーセキュリティ能力が政府採用の可能性を開いた。

The Decoder·4月18日·★★★★

AlibabaのオープンモデルQwen3.6、エージェントコーディングベンチマークでGoogleのGemma 4をリード

Alibabaが公開したオープンソースモデルQwen3.6-35B-A3Bは、350億パラメータのうち3つだけを同時に活性化させるが、GoogleのGemma 4-31Bよりもコーディングと推論のベンチマークで優れた性能を示した。

The Decoder·4月18日·★★★★

OpenAI GPT-5.4-CyberはClaude Mythosよりもオープンである

OpenAIが公開したGPT-5.4-Cyberは、Claude Mythosよりもオープンなモデルであり、サイバーセキュリティ専門家が攻撃への備えを強化するのに役立つ可能性がある。

AI Business·4月18日

Meta、ジャストインタイムテストでバグ検出率を4倍向上と報告

Metaは、コードレビュー中にテストを動的に生成するジャストインタイムテストを導入し、LLMや変異テストを活用したAI支援開発でバグ検出率を約4倍向上させた。

InfoQ·4月17日·★★★★

AI #164：プレオプス

週刊記事は、ジェンセン・ホアングとダワクシュ・パテルのインタビューを背景に、サイバーセキュリティ能力が大幅に向上したClaude Mythosモデルについて報じた。同モデルは複雑な脆弱性の自動実装が可能で、一部のセキュリティ企業に限定公開されている。

The Zvi·4月17日·★★★★

CNCF、KubernetesだけではLLMワークロードのセキュリティ確保に不十分と警告

CNCFが、Kubernetes上でのLLM展開には、AIシステムの動作を理解・制御できないという根本的なセキュリティギャップがあると指摘した。

InfoQ·4月17日

Anthropic Claude Opus 4.7：全次元で前モデルより一歩進んだ

Anthropicは木曜日にClaude Opus 4.7をリリースした。この新モデルは、既存の期待を上回り、あらゆる評価次元においてClaude 4.6より優れているとされる。

Latent Space·4月17日·★★★★★

OpenAI、生物学特化型LLM「GPT-Rosalind」の提供を開始

OpenAIは、生物学研究の課題解決を目的とした大規模言語モデル「GPT-Rosalind」の提供を開始した。同社は、汎用的な科学モデルとは異なり、具体的な生物学ワークフローに特化した訓練を行ったと発表した。

Ars Technica AI·4月17日·★★★★

GitBookが3万サイトのサブ秒コンテンツ更新をVercelで実現

GitBookはVercel上で3万のドキュメントサイトをホストし、月間1億2千万ページビューを処理している。NvidiaやZoomなどの企業が採用し、毎日4万件のキャッシュ無効化を300ms未満で解決。全トラフィックの41%がAIクローラーや自動化システムから発生。

Vercel Blog·4月17日·★★★★

Anthropicが「良しだが最高ではない」Claude Opus 4.7をリリース

AnthropicがClaude Opus 4.7をリリースし、モデルのドリフトや幻覚といった企業導入の主要な課題に対応することを目指している。

AI Business·4月17日

llm-anthropic 0.25リリース

Anthropicがllm-anthropic 0.25をリリースし、新モデル「claude-opus-4.7」を追加した。このモデルは「thinking_effort: xhigh」をサポートし、新たな「thinking_display」と「thinking_adaptive」オプションを導入した。

Simon Willison Blog·4月17日

Google、マルチモーダルとエージェント機能を備えたGemma 4をApache 2.0で公開

GoogleがApache 2.0ライセンスでオープンウェイトAIモデル「Gemma 4」を発表。動画・画像処理の強化、小型モデルでの音声入力、最大256Kトークンの拡張コンテキストウィンドウが特徴。

InfoQ·4月17日·★★★★

AnthropicのClaude Opus 4.7、コーディングで大きな進歩を達成、一方でサイバーセキュリティ機能を意図的に縮小

Anthropicが新フラッグシップモデルClaude Opus 4.7を発表した。同モデルはコーディングタスクで大幅な改善を実現したが、訓練中に特定のサイバーセキュリティ機能を意図的に低減させた。

The Decoder·4月17日

Claude Opus 4.7が一般提供開始

Anthropic社が最新モデルClaude Opus 4.7をGitHub Copilotで提供開始した。同モデルは多段階タスクの性能向上とエージェント実行の信頼性向上を実現し、長期的推論と複雑なワークフローでも改善を示している。

GitHub Changelog·4月16日·★★★★

Claude Opus 4.7がVercel AI Gatewayで利用可能に

AnthropicがClaude Opus 4.7をVercel AI Gatewayで公開した。同モデルは長時間実行可能な非同期エージェント向けに最適化され、複雑な多段階タスクを確実に処理できる。知識労働者向けタスクや画像処理ライブラリを用いたプログラム的ツール呼び出しで性能向上を示す。

Vercel Blog·4月16日·★★★★

AnthropicのClaude Opus 4.7

2026年4月14日から16日にかけてのAIニュースを、複数のSNSやフォーラムから収集した週報。AnthropicがClaude Opus 4.7を静かにリリースしたことが報告されている。

Smol AI News·4月16日·★★★★

生命科学研究向けGPT-Rosalindの紹介

OpenAIが、創薬、ゲノム解析、タンパク質推論、科学研究ワークフローを加速するためのフロンティア推論モデル「GPT-Rosalind」を発表した。

OpenAI News·4月16日·★★★★

MaxText、単一ホストTPUでのSFTとRLのポストトレーニング機能を拡張

MaxTextが、単一ホストTPU構成で教師ありファインチューニング（SFT）と強化学習（RL）の新サポートを導入し、JAXとTunixライブラリを活用して高性能なモデル改良を可能にした。

Google Developers AI·4月16日

Claude Opus 4.7の紹介

Anthropic社がAIモデル「Claude Opus 4.7」を発表した。同モデルは、より高度な推論能力と多様なタスク処理性能の向上を実現している。

Anthropic News·4月16日·★★★★

AnthropicがOpus 4.7とAIデザインツールを準備、VCが最大80兆円を提示

AnthropicがAdobeやFigmaと競合する新モデル「Opus 4.7」とAIデザインツールのリリースを準備中。ベンチャーキャピタルが高い評価額で最大80兆円の投資を検討している。

The Decoder·4月15日·★★★★

Claudeが人間研究者をアライメント課題で打ち負かしたが、実運用では結果が消滅

Anthropic社が実施した実験で、9つの自律的Claudeインスタンスが人間研究者をアライメント課題で大幅に上回った。しかし、同社がその手法を自社の実用モデルに適用しようとしたところ、効果は消滅した。

The Decoder·4月15日

【AIニュース】人類の最後の息吹

Aaron Levie氏によると、AI導入により業務負荷が軽減されるどころか、シリコンバレーのチームは過去最高に繁忙化している。Tyler Cowen氏も、AIが価値を下げようとも上げようとも、今こそ努力すべきだと経済学的に主張している。

Latent Space·4月15日·★★★★

Claude Codeの使用：セッション管理と100万トークンのコンテキスト

Anthropic社が、Claude Codeのセッション管理機能と100万トークンのコンテキスト長を発表した。これにより、開発者は長期間の対話と大規模なコードベースの処理が可能になる。

Claude Blog·4月15日

Claude Code：セッション管理と100万コンテキスト

Claude Codeの主要提唱者Thariqが、コンテキストウィンドウ管理戦略について解説した。新規セッション開始のタイミング、過去の内容への戻り方と修正方法、コンテキストの圧縮とクリアの使い分け、サブエージェントの最適な活用時期、および不適切なコンテキスト圧縮の回避方法について説明した。

宝玉的分享·4月15日

サイバー防衛の新時代に向けた信頼できるアクセス

OpenAIは、Claude Mythosに対抗する新モデル「GPT-5.4-Cyber」を発表した。同社は今後数ヶ月でより強力なモデルをリリースする準備として、防御的サイバーセキュリティ用途に特化したファインチューニングを進めている。

Simon Willison Blog·4月15日

サイバーセキュリティは今やプルーフ・オブ・ワークのようだ

英国AI安全研究所がClaude Mythos Previewのサイバー攻撃能力を評価し、AIモデルのセキュリティリスクを独立分析した。

Simon Willison Blog·4月15日·★★★★

Claude Mythosが防御の弱い企業ネットワークを自律的に端から端まで侵害可能

英国AI安全研究所がAnthropicのClaude Mythos Previewをテストした結果、AIモデルが初めて企業ネットワークに対する完全な攻撃シミュレーションを自律的に完了したが、結果には重要な注意点がある。

The Decoder·4月15日·★★★★

Anthropicの論文がLLMにおける感情様メカニズムの行動影響を検証

Anthropicは、大規模言語モデルが感情関連概念を内部でどのように表現し、それらの表現が行動にどのような影響を与えるかをClaude Sonnet 4.5の内部活性化を分析することで検証した。

InfoQ·4月14日

手動調査をデータパイプライン化。dbt Pythonモデル×LLM Web Searchで公開情報をSnowflakeに取り込む方法

LayerX BizOps部データグループのさえない氏が、dbt PythonモデルとLLMのWeb Search機能を連携させ、公開情報を自動収集してSnowflakeに取り込むデータパイプライン構築手法を紹介する。

LayerX Tech Blog·4月14日

手動調査をデータパイプラインに統合。dbt Pythonモデル × LLM Web Searchで公開情報をSnowflakeに取り込む方法

LayerX BizOps部データグループのさえない氏が、dbt PythonモデルとLLMのWeb Search機能を組み合わせ、公開情報を収集してSnowflakeデータベースに取り込むデータパイプライン構築の実践例を紹介している。

LayerX Tech Blog·4月14日

スティーブ・イェッゲの引用

スティーブ・イェッゲは、GoogleのAI導入状況が農業機械メーカーのジョン・ディアと同程度であり、業界全体で20%が積極利用者、20%が拒否者、60%がチャットツール利用者という導入曲線を示していると指摘した。

Simon Willison Blog·4月14日

Lyft、AIと人間の協働レビューでグローバルローカライゼーションを拡大

Lyftは、AI駆動のローカライゼーションシステムを導入し、大規模言語モデルと人間のレビューを組み合わせた二重パイプラインで、アプリやウェブコンテンツの翻訳を高速化した。これにより、国際展開のスピード向上、ブランド一貫性の確保、地域特有の表現や法的メッセージの効率的な処理を実現している。

InfoQ·4月13日

Anthropicがサイバーセキュリティ機能を備えたClaude Mythos Previewを発表、一般公開は保留

Anthropicは、推論・コーディング・サイバーセキュリティ能力を大幅に向上させた最先端AIモデル「Claude Mythos Preview」を発表したが、一般公開せず、Project Glasswingを通じた技術企業コンソーシアムに限定提供する。

InfoQ·4月13日·★★★★

怠惰の美徳を失った危険性について

Bryan Cantrillは、LLMが怠惰の美徳を欠き、作業コストを感じないため、システムを改善せずに肥大化させ、無意味な指標を追求する危険性を指摘している。

Simon Willison Blog·4月13日

詰め込みを減らして記憶を増やす：訓練データの剪定が事実の記憶を改善

ICLR 2026のワークショップで採択された研究が、情報理論の観点から事実記憶を定式化し、訓練データ分布が事実精度に与える影響を分析した。大規模言語モデル（LLM）は事実知識の記憶に苦戦し、幻覚や知識集約型タスクでの低性能を招くが、訓練データの剪定が記憶を改善できることを示した。

Apple Machine Learning·4月13日·★★★★

MLXを使用したGemma 4オーディオ

Rahim Nathwaniが、macOSで10.28GBのGemma 4 E2BモデルとMLX、mlx-vlmを使用してオーディオファイルを文字起こしするuv runレシピを共有した。

Simon Willison Blog·4月13日

トランプ政権関係者が銀行に対しAnthropicのMythosモデル試験を促している可能性

トランプ政権関係者が金融機関に対し、Anthropic社のMythosモデルの試験利用を推奨していると報じられた。国防総省は先日、同社をサプライチェーンリスクと指定していたため、この動きは意外性が高い。

TechCrunch AI·4月13日

エージェントウィークへようこそ

Cloudflareが「エージェントウィーク」を開始し、AI時代に対応したインターネットとクラウドの構築に取り組むことを発表した。同社は、現在のインターネットとクラウドがAI時代に適していないと指摘している。

Cloudflare Blog·4月13日·★★★★

← 前へ7 / 20次へ →