#llm のAIニュース
1899件の記事
Gemini 3.5:アクションを伴う最前線の知能
Google が「Gemini 3.5」を発表し、このモデルが行動を実行できる最先端の知能を持つことを示した。
OpenAI 共同創設者アンドレイ・カルパティ氏がアンソロピックの事前学習チームに参加
OpenAI の共同創設者であるアンドレイ・カルパティ氏が、競合企業であるアンソロピックの事前学習チームへ加わることが発表された。
Amazon Bedrock におけるプログラムによるツール呼び出しの実装
AWS は、大規模言語モデルが外部ツールと効率的に連携するための新手法「プログラムによるツール呼び出し」を Amazon Bedrock で実装したと発表した。これにより、従来の方式よりも遅延やトークン消費を大幅に削減できる。
[AINews] フロンティアラボでの就職に成功する方法(事前学習編)
Vlad Feinberg氏が、GoogleやTPUを重視した視点から、フロンティアAI研究所で職を得るための準備方法を解説している。
Vercel AI Gateway に Gemini 3.5 Flash が追加
Vercel は、コーディング能力や推論性能が向上した「Gemini 3.5 Flash」を自社の AI ゲートウェイに導入しました。このモデルは思考レベルを中程度にデフォルト設定し、複雑なタスクでの処理効率とコストパフォーマンスのバランスを最適化しています。
LLM の過去半年を5分で解説
Simon Willison氏がPyCon US 2026で発表した、大規模言語モデルの過去半年の動向をまとめたスライドを紹介する。
リソース制約環境における長期会話のためのエピソード KV キャッシュ管理手法「EpiCache」の発表
Apple Machine Learning は、長文対話時のメモリ使用量増大問題を解決する新手法「EpiCache」を発表した。この技術は、デバイス限界を超えないよう KV キャッシュを効率的に管理し、長期会話の実現を目指す。
フロンティア AI に関する議論の拡大について
Anthropic が、最先端の人工知能(AI)技術をめぐる社会的・倫理的な対話を広げる重要性を強調した。
LiteRT-LMによるオンデバイス生成AIの高速化
Google AI Edgeが提供する「LiteRT-LM」は、Gemma 4モデルをモバイルやエッジ環境で実行するための最適化インフラであり、メモリ効率の高い動的読み込みとマルチトークン予測により、最大2.2倍の速度向上を実現し、オンデバイスでの多機能・エージェント機能を解放する。
LLM Wiki v2(16 分間の読了)
TLDR AI が、大規模言語モデルに関する包括的な百科事典「LLM Wiki」の第 2 版を公開しました。この更新版では、最新の研究や技術動向が網羅的に整理されています。
Lovable で反復する指示を再利用可能なスキルに変換する方法(14 分読了)
開発者向けツール「Lovable」が、繰り返し使用する指示を再利用可能なスキルとして登録・管理できる機能を追加した。これにより、AI によるコード生成やタスク実行の効率化が可能となる。
Web、iOS、Android におけるスキル機能(2 分読)
TLDR AI が、Web、iOS、Android の各プラットフォームで利用可能な新しいスキル機能を公開した。
エージェント評価:詳細ガイド(53 分読了)
LLM の評価は静的ベンチマークから動的な実世界のエージェントシステムへ移行しており、複雑な環境で長時間動作する現実的なハーンズによる厳格な成果指向の評価が重要となっている。
HRM-Text(GitHub リポジトリ):計算資源とデータを大幅に削減したテキスト生成モデル
HRM アーキテクチャに基づく 10 億パラメータのテキスト生成モデル「HRM-Text」が公開され、基盤モデルより計算量や学習データを最大数百倍削減可能で、8〜16 台の H100 GPU で数日・数千ドルで学習できる。
Cursor が Composer 2.5 をリリース(7 分読)
開発支援ツール「Cursor」が、コード生成機能の強化を含む新バージョン「Composer 2.5」を正式に公開した。
KPMG、戦略的提携によりClaudeを276,000人以上の従業員とコアビジネスに統合
監査法人のKPMGは、戦略的提携の一環として、AIモデル「Claude」を自社の主要事業および276,000人以上の全従業員業務に全面的に導入した。
言語モデルの事前学習における一般化ダイナミクス(17 分読)
研究者らは、言語モデルが事前学習中にパターン模倣と適応的知能の間で予測不能に切り替わる「モードホッピング」現象を解明し、この動的挙動を活用して最適なチェックポイントの選択やデータ選別、一般化性能を予測する指標の開発を提案した。
SandboxAQ が創薬モデルを Claude に提供、計算の専門知識なしでも利用可能に
SandboxAQ は自社の創薬用 AI モデルを Anthropic の Claude に統合し、計算科学の博士号保有者でなくても医薬品開発に活用できる環境を提供した。
Copilot クラウドエージェント:単純なタスク向けに高速・低コストモデルを追加
GitHub は Copilot クラウドエージェントの利用可能なモデルリストを拡大し、Claude Haiku 4.5 や GPT-5.4-mini など、より高速でコスト効率の高い選択肢を追加した。これによりユーザーは単純な変更には軽量モデルを、複雑な作業には高性能モデルを選択できるようになった。
コンテンツモデレーションのための Amazon Nova 2 のプロンプト手法
AWS は、大規模なユーザー生成コンテンツのモデレーションにおいて、ポリシー違反を正確に検知しつつ誤検知を防ぐシステム構築のため、Amazon Nova 2 を活用したカスタマイズ可能なプロンプト手法を発表しました。
隠されたスキルギャップ:SQL と Python の知識だけではもはや不十分である理由
KDnuggets は、データサイエンティストやエンジニアが SQL と Python を習得しても、AI 時代には追加のスキルが必要であると指摘し、このスキルギャップの拡大を警告している。
ローカル言語モデルで私が試した5 つの面白いこと
著者が、個人端末上で動作するローカル言語モデルを活用して行った5 つの実践的な取り組みと、その具体的な成果について紹介している。
プロジェクト・グラスウィング:ミトスが示したもの
クラウドフレアは数ヶ月間、自社インフラ上でセキュリティ特化型LLMをテストし、脆弱性の特定や攻撃者の動向把握に活用した。その中でアンソロピック社の「ミトス・プレビュー」が最も注目を集めた。
Google I/O 2026:Gemini 3.5 Flash、Omni、および Google のエージェントスタックを発表
Google は 2026 年 5 月開催の I/O で、新モデル「Gemini 3.5 Flash」や「Omni」、そして AI エージェント構築のための「Agent Stack」を発表し、AI 分野での復活を宣言した。
Copilot ビジネスおよびエンタープライズ版のベースモデルに GPT-5.3-Codex が採用
Microsoft は、2026 年 3 月 18 日の発表通り、Copilot Business および Copilot Enterprise の組織におけるデフォルトのベースモデルを GPT-4.1 から OpenAI と共同開発した初の長期サポート(LTS)モデルである GPT-5.3-Codex に置き換えた。
事前学習済みモデル向けベンチマーク構築の取り組み
Preferred Networks は、推論モデル中心の既存評価基準を見直し、事前学習済み大規模言語モデル PLaMo の能力を適切に測定する新たなベンチマーク構築を進めている。
Apple の Siri 再構築にチャット自動削除機能も
Apple が Siri の大規模刷新を検討しており、その一環としてユーザーのチャット履歴を自動的に削除する機能が含まれる可能性がある。
改訂版 Siri は自動削除チャット機能を搭載する見込み
Apple が iOS 27 で導入予定の新型 Siri は、プライバシーを強みとし、競合他社との差別化を図るため、チャット履歴を自動的に削除するオプションを提供すると報じられている。
研究リポジトリ ArXiv、AI に全作業を任せた著者を1年間投稿禁止とする方針を発表
学術論文共有プラットフォーム「ArXiv」は、人工知能(AI)にすべての作業を任せた著者に対し、1年間の投稿禁止処分を下すと発表した。
最新オープンアーティファクト(#21):Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 など。CAISI の V4 評価について
Interconnects は今月の主要なオープンモデル(Gemma 4 や DeepSeek V4 など)を紹介し、AI 標準化・イノベーションセンター(CAISI)がこれらのモデルを評価した結果、米国製最先端モデルとの格差が拡大していることを報告しました。
LLM アーキテクチャの最近の動向:KV シェアリング、mHC、圧縮アテンションについて
Sebastian Raschka は、推論モデルやエージェントワークフローの増加に伴い、コンテキスト効率を重視する新しい LLM アーキテクチャが注目されていると指摘し、KV キャッシュサイズ削減のための KV シェアリングや mHC などの技術動向を紹介している。
Gemini 3.5:アクションを伴う最前線の知能
Google DeepMind が、行動を実行できる能力を備えた次世代 AI モデル「Gemini 3.5」を発表した。
著者らが Anthropic の 15 億ドル著作権和解金増額を求めて争う
Anthropic が AI 学習目的での書籍海賊行為に対する 15 億ドルの著作権和解案に、著者らから異議が提出されたため、連邦裁判所は最終承認を延期した。
ArXiv、AI 生成の質の低い論文を投稿する研究者を禁止へ
学術プレプリントプラットフォーム「ArXiv」は、LLM の生成結果を検証していない証拠がある場合、投稿者を禁止すると発表した。
OpenAI、Apple の ChatGPT 統合に失望し法的措置を検討
OpenAI は、Apple が自社の製品に組み込んだ ChatGPT 機能が同社の期待に応えなかったとして不満を抱き、関係筋によると法的な選択肢の検討を進めている。
AI の委任と長期信頼性に関する研究への追加ノート
Microsoft Research は、最近の論文「LLM が委任時に文書を破損する」について、AI システムの信頼性に関する議論を踏まえ、同研究が主張する点と主張しない点を明確にしている。この研究は、長期にわたる委任・共同作業タスクに対する堅牢な評価手法の開発を目指している。
Grok Code Fast 1 の非推奨発表
GitHub Copilot は、2026 年 5 月 15 日付で「Grok Code Fast 1」モデルを全機能から非推奨とし、代替として GPT-5 mini や Claude Haiku 4.5 の利用を企業管理者に要請した。
Copilot Memory が Pro および Pro+ ユーザー向けにユーザー設定をサポート
GitHub Copilot の「Memory」機能が、Pro および Pro+ ユーザーを対象に早期アクセスとして開始され、対話スタイルに関する個人の好みを記憶・適応させる機能を追加した。
AI ラジオ司会者が示す、AI 単独運用の信頼性欠如
Andon Labs は人間を介さずに AI エージェントが事業を運営する実験を実施しており、その最新事例として Claude や ChatGPT など主要な AI モデルがそれぞれラジオ局を運営している。この実験は、AI を単独で運用することのリスクや信頼性の欠如を浮き彫りにした。
汎用アクセシビリティエージェントの構築と、その過程で得た教訓
GitHub は、エンジニアが GitHub Copilot CLI や VS Code 統合内でアクセシビリティに関する質問に即座に回答を得られるよう、実験的な汎用アクセシビリティエージェントをパイロット運用している。
ArXiv、AI 生成の質の低い論文を投稿した研究者を1年間禁止へ
学術プレプリント repository の ArXiv は、明らかに AI 生成ツールで作成されたと判断される論文を投稿した場合、著者を1年間投稿禁止処分にする方針を発表しました。
TurboQuant:圧縮とパフォーマンスは hype に値するか?
KDnuggets が、機械学習モデルの圧縮技術「TurboQuant」の実効性を検証し、その性能向上が期待されたほどの価値があるかどうかを評価している。
精度を犠牲にせず LLM を高速化する手法
研究者らは国際会議 ICLR で、リアルタイム AI アプリケーションにおいて計算効率を損なわずに大規模言語モデルの速度を向上させる新フレームワークを発表した。
Osaurus がローカルおよびクラウド AI モデルを Mac に提供
Osaurus は、Mac ユーザーに対してローカル実行とクラウド連携の両方に対応した AI モデルの利用環境を提供する。これにより、ユーザーはデータプライバシーを保ちつつ高性能な処理も可能となる。
Claude Code の製品責任者が利用制限や透明性、そして「リーン・ハネス」について語る
Anthropic の Claude Code 製品責任者 Cat Wu は、同社に長期ロードマップがない理由を説明し、モデル能力の向上と開発者のフィードバックが計画を不要にする可能性があると語った。
datasette-llm-limits 0.1a0 のリリース
Simon Willison が、Datasette 内で LLM 利用のユーザー別またはグローバルな使用制限を設定できるプラグイン「datasette-llm-limits」バージョン 0.1a0 を公開した。
営業チームが Codex をどのように活用しているか
OpenAI は、営業チームが AI ツール「Codex」を業務効率化や顧客対応にどう利用しているかを解説した。
ビジネス運用チームがCodexをどう活用しているか
OpenAIは、ビジネスの運用担当者が自社の業務効率化のためにコード生成ツール「Codex」を実際にどのように利用しているかを解説した。
データサイエンスチームが Codex をどのように活用しているか
OpenAI は、データサイエンスチームが AI コーディング支援ツール「Codex」をどのように業務に組み込み、生産性を向上させているかを解説した。
AI Gateway でプロバイダーをコスト、レイテンシ、スループット順に並べ替え可能に
Vercel は AI Gateway の新機能として、モデル背後のプロバイダーをコスト、初トークンまでの時間(TTFT)、またはスループット(TPS)の基準で明示的に並べ替える機能を追加した。これにより、各プロバイダー間の価格や速度の違いが大きい場合でも、ユーザーは最適な次元でランキングを制御できるようになった。