#llm のAIニュース

950件の記事

10 トークン/秒は本当に速いのか?

マイク・ヴェーマン氏が作成した Web アプリにより、5〜800 トークン/秒の LLM 出力速度をシミュレーションできる。30 トークン/秒と advertised されたモデルが実際にどの程度に見えるかを確認する際に有用である。

Simon Willison Blog·5月21日

Vercel AI Gateway に Grok Build 0.1 が利用可能に

XAI が開発したコード生成専用モデル「Grok Build 0.1」が、Vercel の AI Gateway でベータ版として提供開始された。このモデルはエージェント型コーディング向けに訓練されており、現在早期アクセス段階にある。

Vercel Blog·5月20日·★★★★

Vercel の WordPress 用 AI Gateway プラグイン

Vercel は、WordPress 7.0 で利用可能な新 AI クライアント向けに、単一 API キーで 40 社以上のプロバイダーから数百のモデルを利用可能にするプラグインを公開した。

Vercel Blog·5月20日·★★★★

カールパティがアンソロピックへ合流(1 分読了)

アンドレイ・カルパティは、大規模言語モデルの最前線における研究開発に注力するため、アンソロピックへの参加を発表した。彼は教育への情熱も維持しており、将来的に教育活動再開を予定している。

TLDR AI·5月20日·★★★★

Claude Code の活用:HTML が持つ驚くべき効果(10 分読了)

Anthropic は、Claude Code が HTML を使用することで、レイアウトやデータテーブル、インタラクティブ要素を効果的に扱えるようになり、仕様書やデザインのプロトタイピング、カスタム編集インターフェースの作成において、読みやすさや共有・対話能力が向上すると発表しました。

TLDR AI·5月20日

モデルの半減期(4 分読)

TLDR AI は、AI モデルのリリース頻度が加速しているという通説に対し、実際のデータ分析を通じてそのペースが半年ごとに半分になるわけではないと指摘し、主要モデルの公開日程を調査して今後の予測を示した。

TLDR AI·5月20日

Gemini 3.5 Flash:利用料は高くなるが、Google は全製品に導入予定

Google が I/O で一般公開した「Gemini 3.5 Flash」は、評価版を経ずに直接リリースされ、今後同社の主要製品の基盤として全世界の数十億人に提供される。

Simon Willison Blog·5月20日·★★★★

ジェミニ 3.5 Flash は生成 AI が実用的になるのに十分な速度を持つ可能性

Google は本日、最新モデル「Gemini 3.5 Flash」を自社製品群へ順次展開し、前世代の Pro モデルより性能が向上したと主張している。

Ars Technica AI·5月20日·★★★★

Google I/O 2026 で発表された13 の主要な発表

Google は 2026 年の基調講演で、Gemini 3.5 AI モデルの新たなファミリー、検索と Gmail の新機能、スマートグラス「Project Aura」の更新を発表した。

The Verge AI·5月20日

Google Search が史上最大規模の刷新へ

Google は 2026 年の I/O で、AI オーバービューと AI モードをシームレスに連携させる再設計された検索ボックスを発表し、検索体験の新たな段階へと移行する。

The Verge AI·5月20日·★★★★

Amazon Bedrock におけるプログラムによるツール呼び出しの実装

AWS は、大規模言語モデルが外部ツールと効率的に連携するための新手法「プログラムによるツール呼び出し」を Amazon Bedrock で実装したと発表した。これにより、従来の方式よりも遅延やトークン消費を大幅に削減できる。

AWS Machine Learning Blog·5月20日·★★★★

[AINews] フロンティアラボでの就職に成功する方法(事前学習編)

Vlad Feinberg氏が、GoogleやTPUを重視した視点から、フロンティアAI研究所で職を得るための準備方法を解説している。

Latent Space·5月19日·★★★★

Vercel AI Gateway に Gemini 3.5 Flash が追加

Vercel は、コーディング能力や推論性能が向上した「Gemini 3.5 Flash」を自社の AI ゲートウェイに導入しました。このモデルは思考レベルを中程度にデフォルト設定し、複雑なタスクでの処理効率とコストパフォーマンスのバランスを最適化しています。

Vercel Blog·5月19日·★★★★

LLM の過去半年を5分で解説

Simon Willison氏がPyCon US 2026で発表した、大規模言語モデルの過去半年の動向をまとめたスライドを紹介する。

Simon Willison Blog·5月19日·★★★★

LiteRT-LMによるオンデバイス生成AIの高速化

Google AI Edgeが提供する「LiteRT-LM」は、Gemma 4モデルをモバイルやエッジ環境で実行するための最適化インフラであり、メモリ効率の高い動的読み込みとマルチトークン予測により、最大2.2倍の速度向上を実現し、オンデバイスでの多機能・エージェント機能を解放する。

Google Developers AI·5月19日·★★★★

エージェント評価:詳細ガイド(53 分読了)

LLM の評価は静的ベンチマークから動的な実世界のエージェントシステムへ移行しており、複雑な環境で長時間動作する現実的なハーンズによる厳格な成果指向の評価が重要となっている。

TLDR AI·5月19日·★★★★

HRM-Text(GitHub リポジトリ):計算資源とデータを大幅に削減したテキスト生成モデル

HRM アーキテクチャに基づく 10 億パラメータのテキスト生成モデル「HRM-Text」が公開され、基盤モデルより計算量や学習データを最大数百倍削減可能で、8〜16 台の H100 GPU で数日・数千ドルで学習できる。

TLDR AI·5月19日·★★★★

言語モデルの事前学習における一般化ダイナミクス(17 分読)

研究者らは、言語モデルが事前学習中にパターン模倣と適応的知能の間で予測不能に切り替わる「モードホッピング」現象を解明し、この動的挙動を活用して最適なチェックポイントの選択やデータ選別、一般化性能を予測する指標の開発を提案した。

TLDR AI·5月19日·★★★★

コンテンツモデレーションのための Amazon Nova 2 のプロンプト手法

AWS は、大規模なユーザー生成コンテンツのモデレーションにおいて、ポリシー違反を正確に検知しつつ誤検知を防ぐシステム構築のため、Amazon Nova 2 を活用したカスタマイズ可能なプロンプト手法を発表しました。

AWS Machine Learning Blog·5月19日·★★★★

プロジェクト・グラスウィング:ミトスが示したもの

クラウドフレアは数ヶ月間、自社インフラ上でセキュリティ特化型LLMをテストし、脆弱性の特定や攻撃者の動向把握に活用した。その中でアンソロピック社の「ミトス・プレビュー」が最も注目を集めた。

Cloudflare Blog·5月18日·★★★★

Google I/O 2026:Gemini 3.5 Flash、Omni、および Google のエージェントスタックを発表

Google は 2026 年 5 月開催の I/O で、新モデル「Gemini 3.5 Flash」や「Omni」、そして AI エージェント構築のための「Agent Stack」を発表し、AI 分野での復活を宣言した。

Smol AI News·5月18日·★★★★★

事前学習済みモデル向けベンチマーク構築の取り組み

Preferred Networks は、推論モデル中心の既存評価基準を見直し、事前学習済み大規模言語モデル PLaMo の能力を適切に測定する新たなベンチマーク構築を進めている。

Preferred Networks·5月18日·★★★★

改訂版 Siri は自動削除チャット機能を搭載する見込み

Apple が iOS 27 で導入予定の新型 Siri は、プライバシーを強みとし、競合他社との差別化を図るため、チャット履歴を自動的に削除するオプションを提供すると報じられている。

The Verge AI·5月18日·★★★★

最新オープンアーティファクト(#21):Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 など。CAISI の V4 評価について

Interconnects は今月の主要なオープンモデル(Gemma 4 や DeepSeek V4 など)を紹介し、AI 標準化・イノベーションセンター(CAISI)がこれらのモデルを評価した結果、米国製最先端モデルとの格差が拡大していることを報告しました。

Interconnects·5月17日·★★★★

LLM アーキテクチャの最近の動向:KV シェアリング、mHC、圧縮アテンションについて

Sebastian Raschka は、推論モデルやエージェントワークフローの増加に伴い、コンテキスト効率を重視する新しい LLM アーキテクチャが注目されていると指摘し、KV キャッシュサイズ削減のための KV シェアリングや mHC などの技術動向を紹介している。

Sebastian Raschka·5月16日·★★★★

著者らが Anthropic の 15 億ドル著作権和解金増額を求めて争う

Anthropic が AI 学習目的での書籍海賊行為に対する 15 億ドルの著作権和解案に、著者らから異議が提出されたため、連邦裁判所は最終承認を延期した。

Ars Technica AI·5月16日·★★★★

ArXiv、AI 生成の質の低い論文を投稿する研究者を禁止へ

学術プレプリントプラットフォーム「ArXiv」は、LLM の生成結果を検証していない証拠がある場合、投稿者を禁止すると発表した。

The Verge AI·5月16日·★★★★

OpenAI、Apple の ChatGPT 統合に失望し法的措置を検討

OpenAI は、Apple が自社の製品に組み込んだ ChatGPT 機能が同社の期待に応えなかったとして不満を抱き、関係筋によると法的な選択肢の検討を進めている。

Ars Technica AI·5月16日·★★★★

AI の委任と長期信頼性に関する研究への追加ノート

Microsoft Research は、最近の論文「LLM が委任時に文書を破損する」について、AI システムの信頼性に関する議論を踏まえ、同研究が主張する点と主張しない点を明確にしている。この研究は、長期にわたる委任・共同作業タスクに対する堅牢な評価手法の開発を目指している。

Microsoft Research·5月16日·★★★★

AI ラジオ司会者が示す、AI 単独運用の信頼性欠如

Andon Labs は人間を介さずに AI エージェントが事業を運営する実験を実施しており、その最新事例として Claude や ChatGPT など主要な AI モデルがそれぞれラジオ局を運営している。この実験は、AI を単独で運用することのリスクや信頼性の欠如を浮き彫りにした。

The Verge AI·5月16日

汎用アクセシビリティエージェントの構築と、その過程で得た教訓

GitHub は、エンジニアが GitHub Copilot CLI や VS Code 統合内でアクセシビリティに関する質問に即座に回答を得られるよう、実験的な汎用アクセシビリティエージェントをパイロット運用している。

GitHub Blog·5月16日·★★★★

ArXiv、AI 生成の質の低い論文を投稿した研究者を1年間禁止へ

学術プレプリント repository の ArXiv は、明らかに AI 生成ツールで作成されたと判断される論文を投稿した場合、著者を1年間投稿禁止処分にする方針を発表しました。

404 Media·5月16日·★★★★

精度を犠牲にせず LLM を高速化する手法

研究者らは国際会議 ICLR で、リアルタイム AI アプリケーションにおいて計算効率を損なわずに大規模言語モデルの速度を向上させる新フレームワークを発表した。

Amazon Science·5月15日·★★★★

Claude Code の製品責任者が利用制限や透明性、そして「リーン・ハネス」について語る

Anthropic の Claude Code 製品責任者 Cat Wu は、同社に長期ロードマップがない理由を説明し、モデル能力の向上と開発者のフィードバックが計画を不要にする可能性があると語った。

Ars Technica AI·5月15日

今日は何も大きな出来事はありませんでした

Smol AI News は、5 月 14 日から 15 日にかけての期間に、主要なニュースや技術進展がない静かな一日であったと報告しています。

Smol AI News·5月15日·★★★★

datasette-llm-limits 0.1a0 のリリース

Simon Willison が、Datasette 内で LLM 利用のユーザー別またはグローバルな使用制限を設定できるプラグイン「datasette-llm-limits」バージョン 0.1a0 を公開した。

Simon Willison Blog·5月15日

AI Gateway でプロバイダーをコスト、レイテンシ、スループット順に並べ替え可能に

Vercel は AI Gateway の新機能として、モデル背後のプロバイダーをコスト、初トークンまでの時間(TTFT)、またはスループット(TPS)の基準で明示的に並べ替える機能を追加した。これにより、各プロバイダー間の価格や速度の違いが大きい場合でも、ユーザーは最適な次元でランキングを制御できるようになった。

Vercel Blog·5月15日·★★★★

連続バッチ処理における非同期性の解放(20 分読了)

CUDA ストリームとイベントを活用し、CPU が次のバッチ準備を並行して行うことで、GPU のアイドル時間を削減。これにより推論時の GPU 利用率が 22% 向上し、モデル変更なしで生成速度が大幅に改善される。

TLDR AI·5月15日·★★★★

コード自動化とカスタマイズが容易に:Codex にフック機能とプログラムトークンを追加

OpenAI は、コード処理の主要なタイミングでスクリプトを実行できるフック機能と、ビジネス・エンタープライズチーム向けのスコープ限定認証情報を提供するプログラムアクセス機能を Codex に実装し、コードの自動化とカスタマイズを容易にした。

TLDR AI·5月15日·★★★★

マイクロソフト、OpenAI の代替候補として「Inception」の買収を検討中

マイクロソフトは OpenAI との独占ライセンス契約を修正し、同社が他クラウドでモデル販売できる権利を得た。その上で、拡散型言語モデルを手掛ける企業「Inception」の買収を静かに模索している。

TLDR AI·5月15日·★★★★★

もはやロックインされていない

著者は、ミッチェル・ハシモト氏の Bun が Zig から Rust へ移行した発言を思い出し、中規模テック企業の担当者と対話した。同社はコーディングエージェントを活用してレガシーな iPhone と Android アプリの書き換えを完了したと語った。

Simon Willison Blog·5月15日·★★★★

AI ネイティブ医療:100 万件の診療、10〜20 時間の節約、数分での事前承認 — Abridge の Janie Lee と Chai Asawa

Abridge は 2018 年に設立され、大規模言語モデルブーム以前から信頼構築に取り組んできた。同社は AI を活用して年間 100 万件の診療を支援し、医師の業務時間を最大 20 時間節約するとともに、事前承認手続きを数分で完了させる成果を達成した。

Latent Space·5月15日·★★★★

オンタリオ州監査:医師用AIノートテイクが事実を誤る

オンタリオ州監査局は、承認された20社の医療用AIシステムが重要な詳細を見落とし、誤った情報を挿入し、患者や医師の言及もない内容を捏造(ハルシネーション)していると指摘した。

The Register AI/ML·5月15日·★★★★★

Amazon Lex の Assisted NLU でボットの精度を向上させる

AWS は、顧客の自然な発話や曖昧な表現に対応する新機能「Assisted NLU」を Amazon Lex に追加し、チャットボットの認識精度を高めることを発表した。

AWS Machine Learning Blog·5月15日·★★★★

オンタリオ州の監査、医師用 AI ノートテイクが事実と異なる情報を生成していることを発見

オンタリオ州の監査官は、州政府が推奨する医療用 AI スクリプトが、不正確で不完全な情報や幻覚(事実と異なる内容)を頻繁に生成し、患者への不適切または有害な治療計画につながる恐れがあると指摘した。

Ars Technica AI·5月15日·★★★★

The Pulse:容量不足が Anthropic を開発者敵対姿勢に追い込んだか?

エンジニア向けニュースレター「The Pulse」は、Anthropic がリソース不足を理由に開発者の信頼を損なうよう静かに機能制限(nerfing)を行った可能性について報じています。

Pragmatic Engineer·5月15日·★★★★

AI #168:未来を先導していない現状

著者は、政府内の対立やモデルの内部改善など業界で多くの動きがある中、現時点では大きな新発表がないため一息つける状況だと述べています。

The Zvi·5月14日

Promptimus:手動エンジニアリングなしで既存の優れた LLM プロンプトを改善する手法

大規模言語モデル(LLM)の企業利用において、複雑なビジネスロジックや規制要件を反映したプロンプトは通常、ドメイン専門家が手作業で作成しています。本研究では、Promptimus という手法が、人間の手を加えることなく、すでに良好なプロンプトの性能をさらに向上させることを示しました。

Amazon Science·5月14日·★★★★

GPT-5.5 登場後、エンジニアの間で Codex への支持が高まる

GPT-5.5 の発表から 3 週間が経過し、財務関係者は Anthropic の成長に注目する一方、AI エンジニアの間では Codex に対する評価が上昇している。これは GPT-5.5 の性能の高さと Codex の新機能に加え、利用制限の緩和が要因として挙げられる。

Latent Space·5月14日·★★★★

Genkit ミドルウェア発表:エージェント型アプリの検知・拡張・強化

Google が TypeScript や Python などに対応するオープンソースフレームワーク「Genkit」を発表し、生成呼び出しを中継してリトライやモデル切替、人間による承認機能などを追加できるミドルウェアシステムを提供した。

Google Developers AI·5月14日·★★★★