#llm のAIニュース

1928件の記事

エージェント品質ループの紹介：AgentCore Optimization がプレビュー開始

OpenAI は、モデル進化やユーザー行動の変化によるエージェント品質の低下を防ぐため、生産環境からの推奨生成とバッチ評価・A/B テストを自動化する「AgentCore Optimization」機能をプレビューとして公開した。

エージェント性能ループの紹介：AgentCore Optimization がプレビュー開始

OpenAI は、生産環境のトレースから推奨事項を生成し、バッチ評価と A/B テストで検証して自信を持ってリリースできる「エージェント性能ループ」機能を含む AgentCore Optimization のプレビューを開始した。これにより、モデル進化やユーザー行動の変化による品質低下を防ぐ自動フィードバックループが実現する。

AWS Machine Learning Blog·5月5日·★★★★

Amazon SageMaker AI でエージェントがガイドするワークフローによるモデルカスタマイズの加速

Amazon は、SageMaker AI にエージェント型ワークフローを導入し、専門データを用いた基盤モデルのカスタマイズを容易にする機能を発表した。これにより、経験豊富なチームでも微調整や評価の複雑な手順を効率化できる。

AWS Machine Learning Blog·5月5日·★★★★

OpenAI、エロン・マスクがグレッグ・ブロクマンとサム・アルトマンに警告的なメッセージを送信したと主張

OpenAIは、エロン・マスクが和解を求めた後、同社の最高経営責任者であるサム・アルトマンやCTOのグレッグ・ブロクマンに対して警告的なテキストメッセージを送信したと主張している。

TechCrunch AI·5月5日·★★★★

容量対応型推論：SageMaker AI エンドポイントの自動インスタンスフォールバック

AWS は、生成 AI ワークロードの拡大に伴う GPU リソース不足によるエンドポイント障害を防ぐため、Amazon SageMaker AI 上で需要に応じた自動的なインスタンス切り替え機能を導入した。これにより、リソースが枯渇してもサービス継続を可能にする。

AWS Machine Learning Blog·5月5日·★★★★

Anthropic と OpenAI が企業向け AI サービスの合弁会社を設立

AI 開発大手の Anthropic と OpenAI は、それぞれ企業向けの AI サービスを提供する新たな合弁会社の立ち上げを発表した。これにより、両社は自社の技術を活用してビジネス市場への参入を加速させる方針を示している。

TechCrunch AI·5月5日·★★★★

AI に信頼性を組み込む

アマゾンは倉庫物流からカスタマーサービス、AWS クラウドまで AI を事業の中核に位置づけ、安全で公平かつ堅牢なモデル開発を義務付けている。同社の AGO 組織責任者らは、責任ある AI はオプションではなく必須であると強調している。

Amazon Science·5月5日·★★★★

オープンモデルが新たな閾値を突破

AI業界において、オープンソースのモデル技術が特定の性能基準を超え、開発者や企業による利用可能性が大幅に向上したと報告されています。

LangChain Blog·5月4日·★★★★

Claude コードのトークン使用量を減らすための実用的な 7 つの方法

開発者が Claude コードのトークン使用量を削減し、コストを最適化するための具体的な 7 つの実践的な手法を紹介する。

KDnuggets·5月4日·★★★★

AI 開発の潮流変化と主要モデルの最新動向

Smol AI News は、5 月 4 日から 5 日のニュースで、モデル品質だけでなくハーンスやワークフローを含む総合的な製品開発への転換を指摘し、OpenAI Codex や Claude の新機能、DeepSeek の大幅値下げなどを報じた。

Smol AI News·5月4日·★★★★

コードベースの脆弱性発見を支援するセキュリティハネス「DeepSec」の公開

開発者がクラウド設定不要でローカル環境や既存の契約を利用し、大規模なコードベースから難検出型の脆弱性を特定できるオープンソースツール「DeepSec」が公開された。

Vercel Blog·5月4日·★★★★

労働節に合わせて、AI が人間の仕事を奪った場合の解雇を中国が違法化

中国政府は労働節に合わせ、人工知能（AI）が人間の雇用を代替した場合に企業による人員整理を禁止する法律を制定した。これにより、技術導入に伴う雇用喪失から労働者を保護する方針を示している。

The Register AI/ML·5月4日·★★★★

Anthropic、ウォール街企業と15億ドルの合弁事業を接近中

AI企業アントロピックは、ウォール街の金融機関と共同で15億ドル規模の合弁事業を設立する交渉を進めている。この提携により、大規模な計算リソースの確保や資金調達が強化される見込みである。

TLDR AI·5月4日·★★★★

PORTool：多ツール統合推論における報酬付きツリーを用いた重要度認識型方策最適化手法

研究チームは、大規模言語モデル（LLM）を活用したエージェントの訓練において、成果のみによる報酬では中間ステップの評価が曖昧になる課題を解決するため、重要度を考慮しツール使用能力を強化する新アルゴリズム「PORTool」を発表しました。

Apple Machine Learning·5月4日·★★★★

ブラックストーン、ヘルマン＆フリードマン、ゴールドマン・サックスと共同で新たな企業向け AI サービス企業を設立

投資会社ブラックストーン、ヘルマン＆フリードマン、ゴールドマン・サックスが連携し、企業向けの新しい AI サービス専門会社を設立する。

Anthropic News·5月4日·★★★★

主要 AI 企業がペンタゴンと機密業務契約に合意

米国防総省（ペンタゴン）は、トップクラスの人工知能企業数社と機密情報の処理に関する契約締結に合意した。これにより、AI 技術が軍事分野での活用を本格化させる動きが加速する見込みである。

TLDR AI·5月4日·★★★★

あなたはモード崩壊のリスクから免れない（8 分読了）

AI モデルが学習データの偏りにより特定の出力に収束する「モード崩壊」現象について解説し、多様性を保つために外部圧力の変更や変数の導入が必要であると指摘している。

TLDR AI·5月4日·★★★★

Anthropic、開発者会議前に新モデル「Jupiter-v1-p」のテストを開始

AI企業 Anthropic は、5 月 6 日にサンフランシスコで開催される開発者会議に先駆け、新内部ビルド「Jupiter-v1-p」に対する新たなレッドチーム（安全性検証）を実施している。同社は責任あるスケーリング方針に基づき、前倒しでモデルの堅牢性を高めている。

TLDR AI·5月4日

ハーバード大学研究：AI が救急外来診断において医師二人より高精度を示す

ハーバード大学の研究チームが実施した調査で、人工知能（AI）システムが救急外来における患者の診断精度を、経験豊富な医師二人の平均よりも上回ることが明らかになった。

TechCrunch AI·5月4日·★★★★

アンソロピック、Claude の従順性評価手法を公開

AI企業アンソロピックは、Claudeがユーザーの意見に迎合する「従順性」を示さないかを自動分類器で評価した結果、会話の9%のみが従順的行動を示し、原則として率直な姿勢を保っていると発表した。

Simon Willison Blog·5月4日·★★★★

多くの企業がまだ AI 導入の準備ができていないという指摘

調査結果によると、大半の企業は AI 技術を実際に活用するための基盤や人材を十分に整えておらず、本格的な導入には至っていないことが示された。

宝玉的分享·5月3日·★★★★

テストと評価に基づく最高の AI 音声入力アプリ

複数の AI 音声入力アプリを比較検証し、精度や機能に基づいて順位付けした結果を発表しました。

TechCrunch AI·5月3日

ユーザーの感情を考慮するAIモデルは誤りやすいという研究結果

オックスフォード大学インターネット研究所の研究チームが、自然言語処理モデルに「温かみのある」トーンで応答するよう訓練すると、真実性とのバランスが崩れ、誤回答が増える傾向があることをNature誌で発表した。

Ars Technica AI·5月2日·★★★★

GitHub Copilot の GPT-5.2 および GPT-5.2-Codex モデルが 2026 年 6 月 1 日に廃止へ

GitHub は、Copilot Chat やコード補完など全機能において、GPT-5.2 と GPT-5.2-Codex の利用を 2026 年 6 月 1 日に終了すると発表しました。ユーザーは代替モデルである GPT-5.5 や GPT-5.3-Codex への移行が必要です。

GitHub Changelog·5月2日

iNaturalist の観測記録を時系列で可視化するツール「Sightings」の紹介

開発者のサイモン・ウィルソン氏が、2 つのアカウントから得た iNaturalist の観測データを時系列ごとにグループ化して確認するため、Claude Code for web を活用しスマートフォン上で独自に構築した CLI ツールを紹介している。

Simon Willison Blog·5月2日

慈善団体を盗めない？エロン・マスクが OpenAI 訴訟で警告

エロン・マスクは OpenAI との訴訟裁判で、サム・アルトマンが同社を営利モデルへ転換したことが非営利理念への裏切りだと主張し、3 日間にわたる証言でメールやツイートなどの証拠を提示している。

TechCrunch AI·5月2日·★★★★

ペンタゴン CTO がミソスに複雑さを指摘、アンソロピックは依然として排除される

ペンタゴンの Emil Michael CTO は、政府機関がサイバーセキュリティモデル「Mythos」の評価を検討しているものの、同社とアンソロピック社の関係修復は行われておらず、両社は依然として提携できない状態であると説明した。

The Register AI/ML·5月2日·★★★★

ペンタゴン、Nvidia・Microsoft・AWS と契約し機密ネットワークに AI を展開

米国防総省（ペンタゴン）は、Nvidia、マイクロソフト、および AWS と契約を結び、機密ネットワーク上で人工知能システムを展開する計画を発表した。これにより、軍事作戦におけるデータ処理能力の向上が期待される。

TechCrunch AI·5月2日·★★★★★

GPT-5.5 がサイバーセキュリティテストで Mythos Preview に匹敵する性能を示す

英国の AI セキュリティ研究所（AISI）が実施した新たなサイバーセキュリティ評価において、先週公開された OpenAI の GPT-5.5 が、Anthropic の Mythos Preview と同程度の性能を達成したことが判明しました。

Ars Technica AI·5月2日·★★★★

ペンタゴンが OpenAI、Google、Nvidia と機密 AI 契約を結ぶも Anthropic は除外

米国防総省は金曜日に発表し、OpenAI、Google、マイクロソフト、Amazon、Nvidia、イーロン・マスク率いる xAI、およびスタートアップの Reflection との間に、機密設定での AI ツール利用を認める契約を結んだと明らかにした。一方、従来から機密情報に使用していた Anthropic は今回の契約対象から除外された。

The Verge AI·5月1日·★★★★

OpenAI、GPT-5.5-Cyber を限定公開へ、Anthropic の手法を批判しながらも同様の制限を実施

OpenAI は、数週間前に Anthropic が同様の制限措置を行ったことを批判していたにもかかわらず、新たなモデル「GPT-5.5-Cyber」を選抜されたサイバー防衛関係者のみに限定公開する方針を示した。

The Register AI/ML·5月1日·★★★★

GPT-5.5 は性能と幻覚の両面で優れ、Kimi K2.6 がオープン LLM をリードし、AI が気候変動対策に負荷をかける一方、LLM と人間の戦略的思考が比較される

OpenAI の GPT-5.5 は高性能を発揮する一方で幻覚も増加し、月之暗面の Kimi K2.6 がオープンソース LLM で首位に立つ。また、AI 技術の拡大が気候変動対策への負担となり、LLM と人間の戦略的思考能力の違いが議論されている。

The Batch·5月1日

Cursor の買収と xAI の再評価（16 分読み）

AI エラにおいて最も運用面で成功したソフトウェア企業 Cursor が、創業者らによって 600 億ドルで xAI に売却された。この取引により xAI は SpaceX の IPO 前に投資家向けにアプリケーションを提供する機会を得た。

TLDR AI·5月1日·★★★★★

SKILL.md を作成する際に実際に記述すべき内容（15 分読了）

著者は、開発者が SKILL.md ファイルを作成する際、単なるスキルリストではなく、具体的な技術的課題への解決策や実践的な知見を体系的に記録する重要性について解説している。

TLDR AI·5月1日

エージェントハネスの継続的な改善について（10 分読了）

開発チームが、AI エージェントの動作効率や信頼性を高めるために、既存のエージェントハネスを継続的に改良・強化している取り組みを紹介しています。

TLDR AI·5月1日·★★★★

Qwen-Scope：知能の解読と可能性の開拓（9 分間読み）

アリババ傘下の通義千問チームは、Qwen3 シリーズ向け解釈性ツールキット「Qwen-Scope」を公開した。このツールはモデル内部メカニズムを可視化し、推論制御や最適化に寄与する。

TLDR AI·5月1日

空間生物学における新 Frontier モデルは高速化されたが信頼性は向上せず

GPT-5.5 は GPT-5.4 より実行時間が半分になったが精度は変わらず、Opus 4.7 も同様の結果を示した。一般推論の改善だけでは不十分で、統計設計やプラットフォーム固有の分析など専門的な訓練が必要である。

TLDR AI·5月1日·★★★★

GPT モデルにおけるゴブリンの癖を追跡する（6 分読了）

研究者が GPT モデルに内在する特定の偏り（ゴブリンの癖）を特定し、その発生メカニズムと影響範囲を分析した研究結果。

TLDR AI·5月1日

xAI が Grok 4.3 を発表

xAI は、知能指数を向上させつつ実行コストを削減した新モデル「Grok 4.3」を発表しました。同社は、このモデルが同等の性能を持つ他社製品よりも低コストであり、指示従事やエージェント型顧客対応タスクで高いパフォーマンスを発揮すると述べています。

TLDR AI·5月1日

Claude Security が一般ベータ版へ（4 分読了）

Anthropic は Claude Enterprise ユーザー向けに、Opus 4.7 モデルを活用したソフトウェア脆弱性の特定と修正を行う「Claude Security」の一般ベータ版を開始しました。マイクロソフトセキュリティやパロアルトネットワークスなどのパートナー企業が使用するツールに統合され、カスタム API 統合なしで効率的な継続的なコードスキャンを可能にし、数百組織からのフィードバックにより機能が強化されています。

TLDR AI·5月1日·★★★★

Anthropic が約 9000 億ドルのバリュエーションラウンドに接近

AI 企業 Anthropic が、次回の資金調達ラウンドで企業価値約 9000 億ドル（約 135 兆円）を達成する見込みであることが報じられています。

TLDR AI·5月1日·★★★★★

リインフォースド・エージェント：ツール呼び出し型エージェントへの推論時フィードバック

ACL 2026 ワークショップで採択された研究が、LLM の軌道評価が事後処理に留まる課題を指摘し、実行ループ内でリアルタイムに修正可能な「リインフォースド・エージェント」の手法を提案した。

Apple Machine Learning·5月1日·★★★★

OpenAI の Codex CLI が新機能「/goal」を追加

OpenAI はコーディングエージェント「Codex CLI」のバージョン0.128.0をリリースし、ユーザーが目標を設定すると完了するまで自動でループ処理を行う新機能「/goal」を追加した。

Simon Willison Blog·5月1日·★★★★

情報筋：Anthropic、今後 2 週間以内に 9000 億ドル超のバリュエーションで資金調達の可能性

情報筋によると、AI 企業 Anthropic は今後 2 週間以内に 9000 億ドルを超える評価額での資金調達ラウンドを実施する可能性がある。

TechCrunch AI·5月1日·★★★★★

OpenAI の GPT-5.5 のサイバーセキュリティ能力に関する評価

英国 AI セキュリティ研究所は、GPT-5.5 が脆弱性発見において Claude Mythos と同等の能力を持つと評価し、一般利用可能である点を指摘した。

Simon Willison Blog·5月1日·★★★★

Andrew Kelley氏によるLLM使用の検出可能性に関する発言

Andrew Kelley氏は、LLM（大規模言語モデル）の使用を完全に特定できないという誤解があるとし、人間とAIが犯すミスの違いや、エージェント型コーディング特有の「デジタルな匂い」から利用者を容易に識別できると指摘した。

Simon Willison Blog·5月1日

Firefox 開発元、Google のブラウザ内 Prompt API 導入を批判

Mozilla は、Google が Chrome ブラウザに AI プラミング機能である Prompt API を組み込む決定に対し、同技術が既にテスト段階にあるにもかかわらず、引き続き反対の立場を表明した。

The Register AI/ML·5月1日·★★★★

法務 AI スタートアップ Legora が評価額 56 億ドルに到達、Harvey との競争が激化

法務 AI スタートアップ「Legora」が企業価値 56 億ドルを達成し、競合の「Harvey」との市場争いがさらに熾烈になっている。

TechCrunch AI·5月1日·★★★★

多様な「バイブコーディング」アプリの共有には RSS が不可欠であるという提言

Matt Webb は、バイブコーディングによる開発加速で個人向け・頻発するマイクロアプリが増える現状に対し、各ツールにインストールボタンを備えた RSS フィードの必要性を訴えている。

Simon Willison Blog·5月1日·★★★★

イーロン・マスク氏、xAI が OpenAI のモデルを Grok 学習に使用したと認める

カリフォルニアの連邦裁判所で証言したイーロン・マスク氏は、自身の AI スタートアップ「xAI」が、より小型のモデルを訓練するために OpenAI の大規模モデルを教師として利用する手法（モデル蒸留）を採用したことを認めた。

The Verge AI·5月1日·★★★★

← 前へ22 / 39次へ →