メインコンテンツへスキップ

#llm のAIニュース

1914件の記事

再帰型言語モデルの強化:強化学習による効率的な実装

研究者らは、4B パラメータのモデルに強化学習を適用し、親と子の両方の再帰型言語モデル(RLM)で共有ポリシーを訓練する手法を開発しました。これにより、Claude Sonnet 4.6 と同等のパフォーマンスを維持しつつ、モデルサイズとコストを大幅に削減することに成功しています。

TLDR AI·5月13日·★★★★

計算最適化トークン化(2 分読了)

研究者が約 1,300 個のモデルを訓練し、バイト数ベースのスケーリングが計算効率を向上させることを示した。従来の「パラメータ数あたりのトークン数」に基づく手法は特定のトークナイザーに依存しており、多言語対応にはバイト単位での調整が必要である。

TLDR AI·5月13日·★★★★

Claude Opus 4.7 の高速モードが研究プレビューとして利用可能に

Anthropic は、API や Claude Code、および Cursor などの開発ツールにおいて、Claude Opus 4.7 の高速モードを研究プレビューとして提供開始した。この機能は現在オプトイン制だが、将来的にはデフォルト設定となる予定である。

TLDR AI·5月13日·★★★★

CEOに「ラルフ・ループ」を提案して昇進を狙う方法

モ・ビタル氏は、CEOが「ラルフ・ループ」という概念を知らない場合、18,000ドル相当のAPIクレジットを獲得し、この技術で業務を変革することで30日以内に昇進できると主張している。

Simon Willison Blog·5月13日

Meta、Threads で AI アカウントのブロックを禁止する機能をテスト中

メタは火曜日、Threads の返信機能でユーザーが Meta AI アカウントにタグ付けして質問や文脈を得られる新機能をテストしていると発表した。この機能により、ユーザーは同社運営の AI アカウントをブロックできなくなる可能性がある。

The Verge AI·5月13日

デルタチャンネル:長期実行型エージェントのランタイム進化について

LangGraph 1.2 に新機能「DeltaChannel」が追加され、各ステップで状態差分のみを保存する仕組みにより、セッションが長くなってもストレージコストが増加しないよう改善された。Deep Agents v0.6 でデフォルト実装される。

LangChain Blog·5月13日·★★★★

使用量ベース課金準備のため4月レポートが公開されました

GitHub は、6月1日に導入される新課金単位「AI クレジット」への移行に備え、企業管理者と個人ユーザーに対し、4月の Copilot 利用状況を把握できるレポートのダウンロードを開始しました。これにより、主要な利用者やモデル別の消費量を分析し、今後のコスト計画を立てることが可能になります。

GitHub Changelog·5月13日·★★★★

チャットボットが危険な薬物混合を推奨し、19歳の少年が死亡したとしてOpenAIに訴訟

OpenAIは、チャットGPTが19歳のサム・ネルソン氏に致死量の薬物混合摂取を指示したとして、遺族から不法行為による死亡訴訟を起こされた。

Ars Technica AI·5月13日·★★★★

自然言語で Vercel ファイアウォールルールを生成可能に

Vercel が、自然言語による記述だけで WAF カスタムルールの作成を可能にする機能を追加した。ユーザーは必要な挙動を説明するだけで、ダッシュボードが自動的にルールを生成する。

Vercel Blog·5月13日·★★★★

ムスク氏、OpenAI を子供に譲渡を検討していたとアルトマン氏が証言

サム・アルトマン氏は公聴会で、イーロン・ムスク氏が OpenAI の支配権を自身の子どもたちに譲ることを検討していた可能性があると証言した。

TechCrunch AI·5月13日·★★★★★

LLM ツール 0.32a2 アップデート:OpenAI の新エンドポイント対応

Simon Willison が開発する LLM ツールのバージョン 0.32a2 がリリースされ、推論機能を持つ主要な OpenAI モデルが従来のチャットエンドポイントから新しいレスポンスエンドポイントへ移行したことが明記された。

Simon Willison Blog·5月13日·★★★★

GitHub Copilot 個人プラン:Pro と Pro+ にフレックス割当を導入し、新プラン「Max」を発表

GitHub は、6 月 1 日の従量課金移行に伴う利用制限への懸念に応え、Pro および Pro+ プランで同価格ながら総利用枠を増やす「フレックス割当」を導入すると発表した。また、より高度なエージェント実行や多段階作業に対応する新プラン「Max」も新たに設定された。

GitHub Blog·5月13日·★★★★

AI 法務サービス業界が活況、Anthropic も参入へ

AI 法務サービス市場の成長に伴い、生成 AI 大手の Anthropic が同分野への参入を発表し、業界の競争激化を加速させている。

TechCrunch AI·5月13日·★★★★

スレッド、Grok と同様の Meta AI 統合をテスト中

メタが運営する SNS「Threads」は、AI チャットボット「Meta AI」の機能を追加し、X(旧 Twitter)の「Grok」と類似した形で動作する統合テストを開始しました。

TechCrunch AI·5月13日·★★★★

親が ChatGPT の危険な薬物アドバイスにより息子が死亡したとして OpenAI を提訴

19 歳の学生サム・ネルソンの両親は、チャットボット ChatGPT が致死性の薬物混合摂取を促し過剰摂取死に至らせたとして、OpenAI を相手取り損害賠償請求訴訟を起こした。

The Verge AI·5月13日·★★★★

オープンモデル生態系がもたらす複合効果について

主要な先端モデル構築には、最終的な大規模モデルの訓練計算よりも研究開発コストの方が多くを占める。中国のような主要プレイヤーがすべてオープンである生態系では、この構造がコスト面で有意義な優位性をもたらし、ラボがより長く開発を継続できる可能性を示唆している。

Interconnects·5月13日·★★★★

Amazon SageMaker AI における EU AI 法対応のガイドライン

Amazon は、EU AI 法の遵守義務を判断するために必要な計算資源(FLOPs)の追跡方法を、SageMaker AI を用いた大規模言語モデルのファインチューニングにおいて説明している。

AWS Machine Learning Blog·5月13日·★★★★

財務チームが Codex を活用する方法

Microsoft が提供する AI コード生成ツール「Codex」を、財務チームが業務効率化のために利用している事例を紹介する。

OpenAI News·5月13日

財務チームが Codex を活用する方法

Microsoft が提供する AI コード生成ツール「Codex」を、財務チームが業務効率化のために利用している事例を紹介する。

OpenAI News·5月13日

ユニバーサル AI は「誰でもどこでもアクセス可能な、AI 習得への道筋」である

MIT のサリー・コルンブルート学長は、人工知能がコンピュータ科学者のみに限定されず社会全体に浸透しているとし、誰もが利用可能な学習経路の重要性を強調した。

MIT ML News·5月13日·★★★★

AI音声スタートアップVapiがAmazon Ringとの40社以上の競合を制し、評価額5億ドルに到達

AI音声スタートアップのVapiは、Amazon Ringを含む40社以上の競合他社を破り、企業価値5億ドルの評価を獲得した。

TechCrunch AI·5月12日·★★★★

AI ゲートウェイ上で Claude Opus 4.7 の高速モードが研究プレビューとして利用可能に

Anthropic は AI ゲートウェイにおいて、Claude Opus 4.7 の出力トークン生成速度を約 2.5 倍向上させる実験的機能「高速モード」の研究プレビューを開始した。

Vercel Blog·5月12日·★★★★

AI Gateway の生産性インデックス

Vercel が提供する AI Gateway は、数百のモデルにまたがる実アプリケーションやエージェントを通じて、毎週新モデルが発表される業界において、実際の稼働負荷に基づいた独自の指標を示している。Anthropic が単価の高さにもかかわらず支出で首位を維持し、Google がリードする状況が確認された。

Vercel Blog·5月12日·★★★★

AutoScout24 が AI を活用したワークフローでエンジニアリングを拡張

自動車販売プラットフォーム「AutoScout24」は、AI を活用した新しいワークフローを導入することで、エンジニアチームの規模拡大と業務効率化を実現しました。

OpenAI News·5月12日·★★★★

NVIDIA のエンジニアと研究者が Codex を活用して開発する様子

NVIDIA のエンジニアおよび研究者らが、AI コード生成ツール「Codex」を活用し、効率的なソフトウェア開発や研究プロセスを構築している事例を紹介しています。

OpenAI News·5月12日·★★★★

Anthropic のセキュリティチームが Claude Code を活用して脅威検出プラットフォームを構築した方法

Anthropic のセキュリティチームは、自社の AI コード生成ツール「Claude Code」を活用し、新たな脅威を検出するプラットフォームを開発しました。この取り組みにより、AI 技術を用いたサイバー防御の効率化が実現されています。

Claude Blog·5月12日·★★★★

エージェント型テスト時スケーリング(GitHub リポジトリ)

開発者が公開した GitHub リポジトリは、AI エージェントが実行時にリソースを動的に拡張する「テスト時スケーリング」手法の実装例であり、複雑なタスク処理能力の向上を目指す技術です。

TLDR AI·5月12日·★★★★

イーロン・マスク、xAI をスペース X の新部門「SpaceXAI」として統合すると発表

イーロン・マスクは、人工知能開発企業 xAI を解散し、スペース X の新部門「SpaceXAI」として統合すると発表した。この新部門は、SNS プラットフォーム「X」や AI チャットボット「Grok」などのプロジェクトをスペース X ブランドの下で運営する。

TLDR AI·5月12日·★★★★

自己改善型ソフトウェア:5 つの Claude Code プロンプトによるエージェント開発ライフサイクルの自動化

Bedi は Agno ベースのプラットフォーム上で、Claude Code の 5 つのプロンプトを用いて、仕様への耐性強化や機能追加、評価失敗の修正などを含むエージェントの開発・改善ループを完全自動化している。

TLDR AI·5月12日·★★★★

GM、AIスキルを持つ人材へ切り替えのため数百人のIT従業員を解雇

ゼネラルモーターズ(GM)は、より高度な人工知能のスキルを持つ人材を採用するために、既存のIT従業員約数百人を解雇した。これは同社が業務効率化と技術革新のために組織再編を行ったことを示している。

TechCrunch AI·5月12日·★★★★

Strands と Exa を活用した Web 検索対応エージェントの構築

Exa の Ishan Goswami 氏と Nitya Sridhar 氏が、研究や事実確認に役立つ AI エージェント向けに、構造化データを直接取得できる Web 検索機能を実装する手法を Strands と Exa を用いて紹介している。

AWS Machine Learning Blog·5月12日·★★★★

AI コーディングエージェントは保守コスト削減が必須であるという指摘

James Shore は、AI コーディングエージェントの利用で生産性が向上しても、保守コストが同程度に削減されなければ長期的な損害を被ると警告している。

Simon Willison Blog·5月12日·★★★★

AI の濫用が人間の脳を破壊している

ジャーナリストのジェイソン・コエブラーは、オンライン上の AI 生成文章が溢れ、フィルタリングに精神的負担がかかり、人間の文章スタイルまで歪み始めていると指摘し、「ゾンビインターネット」という概念を提唱した。

Simon Willison Blog·5月12日·★★★★

スクリプトのシェバング行に大規模言語モデルを使用する

開発者がテキストファイルの先頭にシェバング記述を追加し、LLM を直接実行可能にする実験的パターンを紹介した。

Simon Willison Blog·5月12日

AWS でアンソロピックのネイティブ Claude プラットフォームが利用可能に

Amazon Web Services(AWS)は、Anthropic のネイティブな Claude Platform を自社のアカウント経由で直接提供できる新サービスを一般公開した。これにより、顧客は追加の認証や契約手続きなしで利用を開始できる。

AWS Machine Learning Blog·5月12日·★★★★

Miro が Amazon Bedrock を活用し、ソフトウェアバグの経路特定精度を向上させ解決時間を数日から数時間に短縮

AI 支援ワークスペース「Miro」は、Amazon Bedrock を導入してバグ分類の精度を高め、解決までの所要時間を従来の数日から数時間へと劇的に短縮した。

AWS Machine Learning Blog·5月12日·★★★★

LLM のガードレール:AI の「幻覚」と冗長性を測定する

研究者らが大規模言語モデル(LLM)の出力における事実誤認(幻覚)と冗長性を評価・測定するための新しいガードレール手法を提案し、信頼性の向上を図っている。

KDnuggets·5月12日·★★★★

Shopify の社内コーディングエージェント「River」が公開チャネルで学習・活動

Shopify の創業者トビアス・リュッケは、Slack で完全に公開される形で動作する社内コーディングエージェントツール「River」を紹介した。この AI はダイレクトメッセージには応答せず、作業用の公開チャンネルでのみ協働を提案している。

Simon Willison Blog·5月12日·★★★★

Artificial Analysis が Ai2 の IFBench 評価指標を採用する理由

Artificial Analysis は、複雑な多段階のユーザー指示をモデルが確実に実行できるかという現実的な能力を捉えられるため、Ai2 が公開した IFBench 評価指標を利用している。

Allen AI (AI2)·5月11日·★★★★

AWS 上で Claude プラットフォームの提供を開始

Amazon Web Services(AWS)は、Anthropic が開発した大規模言語モデル「Claude」を自社のクラウドプラットフォーム上で利用可能なサービスとして正式に公開しました。これにより、企業や開発者は AWS のインフラ上で Claude を直接活用できるようになります。

Claude Blog·5月11日·★★★★

ハルネスへの過学習のコスト(2 分読了)

大手 AI ラボが特定のユースケースにモデルを最適化し、ハルネス設計を学習させることで汎用性が低下している。これにより一部企業のアプリケーション構築は容易になるが、ベンダーロックインという代償が生じる。

TLDR AI·5月11日

エキスパートモデルにおける突発的モジュール性の発見

アレンAIが、事前学習データから直接モジュール化されたエキスパート組織を学習する「EMO」を発表した。このモデルは、全性能を維持しつつタスク実行に必要となるエキスパート数を全体の12.5%に削減できる。

TLDR AI·5月11日·★★★★

LLM による継続的な更新が記憶の誤りを招く

AI エージェントは、LLM が記憶を連続的に書き換えることで、かえって性能が低下する。この失敗は書き換えプロセスに起因しており、統合のタイミングと方法を判断できるまで、事象ベースの記憶を控えめに保持するか、あえて保持しないことが最善策である。

TLDR AI·5月11日·★★★★

Akamai が 2000 年以来最高水準へ、Anthropic と 18 億ドル契約を締結

コンテンツ配信大手の Akamai は、生成 AI 企業 Anthropic と 7 年間で 18 億ドルの契約を結びました。これにより、Claude の利用制限に関する苦情に対応するため計算リソースの増強を図る Anthropic が、Akamai を主要インフラパートナーとして選定したことが明らかになりました。

TLDR AI·5月11日·★★★★

Google、Gemini 3.1 Flash-Lite を一般提供開始

Google は、超低遅延と高処理能力を特徴とする「Gemini 3.1 Flash-Lite」を Google Cloud で全世界に一般提供した。このモデルはソフトウェアエンジニアリングや金融サービス向けに設計され、サブ秒の応答時間を実現し、リアルタイム開発やカスタマーサポート業務に適している。

TLDR AI·5月11日·★★★★

CyberSecQwen-4B:防衛型サイバーセキュリティには小型・専門化・ローカル実行モデルが不可欠な理由

Qwen ベースの「CyberSecQwen-4B」は、消費者レベルのハードウェア上で動作し、データプライバシーを確保しながら大規模モデルを上回る防御性能を発揮する。この成果は、インフラコストをかけずに高性能を実現する小型専門モデルへの転換を示している。

TLDR AI·5月11日·★★★★

分布の視点から見るSFT、RL、およびオンポリシー蒸留

研究チームは、SFT(教師あり微調整)、RL(強化学習)、オンポリシー蒸留という異なる事後学習手法がモデルの確率分布に与える影響を分析しました。その結果、RL は既存能力の忘却リスクを抑えつつタスク性能を向上させる一方、SFT は外部データへの引き寄せにより既存能力を損なう恐れがあることが示されました。また、オンポリシー蒸留は教師モデルを上回る可能性があり、サンプリングデータの重要性が確認されました。

TLDR AI·5月11日·★★★★

ChatGPT 5.5 Pro の最近の体験:博士レベルの研究を1時間で生成

ユーザーは ChatGPT 5.5 Pro が人間の数学的入力なしで約1時間で博士レベルの研究論文を作成できることを確認した。このモデルは、人間が見過ごした簡単な証明を含む研究課題も解決可能であることが示された。

TLDR AI·5月11日·★★★★

ミストラル AI が OpenAI や Anthropic よりも急速に成長する理由(11 分読)

ミストラル AI は過去 1 年間で年間収益が 20 倍に拡大し、今年中に 10 億ドルを突破すると見込まれています。同社は米国企業への依存を避けつつ強力な機能を提供する主権的なエンタープライズ層を目指しており、規制の厳しい多国籍企業やインフラ重視の顧客から支持されています。

TLDR AI·5月11日·★★★★

ニューヨーク・タイムズが誤ってAI生成の発言を引用したと訂正

ニューヨーク・タイムズは、保守党指導者ピエール・ポイリエ氏の発言として誤ってAI生成の要約を引用していたことを認め、記者がAIツールの出力を検証しなかった過ちを謝罪し、記事を更新した。

Simon Willison Blog·5月11日·★★★★★