#llm のAIニュース
951件の記事
OpenAI、ChatGPT専用スマホを2027年初め量産へ
サプライチェーンアナリストの郭明錤氏によると、OpenAIはチャットGPT専用スマートフォンを開発中であり、2027年初めに量産を開始する計画である。これは同社の初となるハードウェア製品となる見込みだ。
datasette-llm 0.1a7 のリリース:LLM プラグインのデフォルト設定機能追加
Datasette が提供する LLM 対応プラグイン「datasette-llm」がバージョン 0.1a7 に更新され、特定のモデルに対してデフォルトオプションを設定する機能が新たに実装されました。これにより、開発者は各モデルの動作を柔軟に制御できるようになります。
LLM 自動化テスト用プラグイン「llm-echo」のバージョン 0.5a0 がリリース
開発者シモン・ウィルソンが、大規模言語モデル(LLM)の自動化テストを支援するプラグイン「llm-echo」のバージョン 0.5a0 を公開しました。この更新では、新しい LLM バージョンとの互換性を確認するためのオプション機能が追加されています。
確率的 KV ルーティング:適応型深層別キャッシュ共有を実現
研究者らは、トランスフォーマー言語モデルの推論コスト削減のため、時間軸以外の「深さ」次元に焦点を当てた新しい手法「確率的 KV ルーティング」を提案し、キーバリューキャッシュのメモリ使用量を大幅に削減できることを示した。
消費者向け AI の ARPU(1 ユーザーあたり平均収益)の課題
ChatGPT の viral な「笑顔」保持曲線は、総保有率ではなくネット保有率を追跡したため、課金ギャップを隠蔽しました。最も熱心なユーザーでも月額 20 ドルに制限される一方、Anthropic は B2B で 440 億ドルの収益を拡大しています。消費者向け AI は、コーディングエージェントや法務 AI のように価値を捉えられず、ユーザーは回答や画像にお金を払う価値を見出せず、既存の節約効果に対して追加料金を支払うことを拒んでいます。
Tuna-2(GitHub リポジトリ):メタがマルチモーダルモデルの基礎チェックポイントを公開
メタ社は、ピクセル埋め込みを活用した新モデル「Tuna-2」を発表し、既存モデルを上回る性能を示しました。同社は完全な生産用重みではなく、LLM 基盤と拡散ヘッドから一部層を削除した基礎チェックポイントのみを公開します。
モデル・ハネス・フィット:最先端 AI が特定ツールに最適化されている実態
バスタマンテ氏は、Codex CLI や Claude Code などの CLI ツールを分析し、最先端研究所が学習済みモデルの重みに特定のツールの名前やスキーマ、プロンプト構造を組み込んでいると指摘。Terminal-Bench 2.0 のデータは、同じモデルでも使用するハネス(評価枠組み)を変えるだけでスコアが大きく変動することを示している。
Granite 4.1 3B SVG ペリカンギャラリー
IBM は数日前に Apache 2.0 ライセンスの LLM「Granite 4.1」ファミリー(3B、8B、30B)を公開した。本記事は同モデルの学習プロセスや、SVG ペリカンのギャラリーを紹介している。
「他者」対「インフラ」、AI業界の新たな議論
OpenAI の従業員が Claude を称賛する発言を行い、業界内で注目すべき議論を巻き起こした。また、Sierra は評価額150億ドルで約10億ドルの資金調達に成功し、月間収益が2億ドルを超えたことが報じられた。
2026年4月ニュースレター:主要AIモデルの価格改定と新機能発表
Simon Willison氏が公開した4月のニュースレターでは、OpusやGPTなどの主要AIモデルが価格を引き上げること、Claudeの新バージョン「Mythos」の登場、およびChatGPT画像生成機能のアップデートについて報告されています。
Nature が ChatGPT の教育効果に関する論文を撤回
学術誌 Nature は、AI が学生の学習成績や思考力にプラスの影響を与えると主張したメタ分析論文を撤回しました。この論文は 5 月に発表され、ChatGPT の教育的利点を示す根拠として引用されていましたが、調査の結果問題が発覚し取り下げられました。
AgentCore にエージェント品質最適化機能をプレビューとして導入
Microsoft は、モデルの進化やユーザー行動の変化によるエージェント品質の低下を防ぐため、生産環境のトレースから推奨事項を生成し、バッチ評価と A/B テストで検証する新機能「エージェント品質最適化」を AgentCore にプレビューとして追加した。
エージェント品質ループの紹介:AgentCore Optimization がプレビュー開始
OpenAI は、モデル進化やユーザー行動の変化によるエージェント品質の低下を防ぐため、生産環境からの推奨生成とバッチ評価・A/B テストを自動化する「AgentCore Optimization」機能をプレビューとして公開した。
エージェント性能ループの紹介:AgentCore Optimization がプレビュー開始
OpenAI は、生産環境のトレースから推奨事項を生成し、バッチ評価と A/B テストで検証して自信を持ってリリースできる「エージェント性能ループ」機能を含む AgentCore Optimization のプレビューを開始した。これにより、モデル進化やユーザー行動の変化による品質低下を防ぐ自動フィードバックループが実現する。
Amazon SageMaker AI でエージェントがガイドするワークフローによるモデルカスタマイズの加速
Amazon は、SageMaker AI にエージェント型ワークフローを導入し、専門データを用いた基盤モデルのカスタマイズを容易にする機能を発表した。これにより、経験豊富なチームでも微調整や評価の複雑な手順を効率化できる。
容量対応型推論:SageMaker AI エンドポイントの自動インスタンスフォールバック
AWS は、生成 AI ワークロードの拡大に伴う GPU リソース不足によるエンドポイント障害を防ぐため、Amazon SageMaker AI 上で需要に応じた自動的なインスタンス切り替え機能を導入した。これにより、リソースが枯渇してもサービス継続を可能にする。
AI に信頼性を組み込む
アマゾンは倉庫物流からカスタマーサービス、AWS クラウドまで AI を事業の中核に位置づけ、安全で公平かつ堅牢なモデル開発を義務付けている。同社の AGO 組織責任者らは、責任ある AI はオプションではなく必須であると強調している。
本日は特に目立った出来事なし
AIニュースの週報が、12 のサブレディットと 544 のツイートを調査したが、特筆すべき進展や発表は確認されなかった。
コードベースの脆弱性発見を支援するセキュリティハネス「DeepSec」の公開
開発者がクラウド設定不要でローカル環境や既存の契約を利用し、大規模なコードベースから難検出型の脆弱性を特定できるオープンソースツール「DeepSec」が公開された。
PORTool:多ツール統合推論における報酬付きツリーを用いた重要度認識型方策最適化手法
研究チームは、大規模言語モデル(LLM)を活用したエージェントの訓練において、成果のみによる報酬では中間ステップの評価が曖昧になる課題を解決するため、重要度を考慮しツール使用能力を強化する新アルゴリズム「PORTool」を発表しました。
あなたはモード崩壊のリスクから免れない(8 分読了)
AI モデルが学習データの偏りにより特定の出力に収束する「モード崩壊」現象について解説し、多様性を保つために外部圧力の変更や変数の導入が必要であると指摘している。
Anthropic、開発者会議前に新モデル「Jupiter-v1-p」のテストを開始
AI企業 Anthropic は、5 月 6 日にサンフランシスコで開催される開発者会議に先駆け、新内部ビルド「Jupiter-v1-p」に対する新たなレッドチーム(安全性検証)を実施している。同社は責任あるスケーリング方針に基づき、前倒しでモデルの堅牢性を高めている。
アンソロピック、Claude の従順性評価手法を公開
AI企業アンソロピックは、Claudeがユーザーの意見に迎合する「従順性」を示さないかを自動分類器で評価した結果、会話の9%のみが従順的行動を示し、原則として率直な姿勢を保っていると発表した。
従量課金モデルが「バイブコーディング」を阻害する理由と、ローカル AI コーディングエージェントの自作方法
モデル開発者が利用制限や価格引き上げ、従量課金への移行を進める中、趣味プロジェクトのコストが高騰している。この課題に対し、ローカル LLM を活用して独自にコーディングエージェントを構築するコスト削減策が提案されている。
ユーザーの感情を考慮するAIモデルは誤りやすいという研究結果
オックスフォード大学インターネット研究所の研究チームが、自然言語処理モデルに「温かみのある」トーンで応答するよう訓練すると、真実性とのバランスが崩れ、誤回答が増える傾向があることをNature誌で発表した。
iNaturalist の観測記録を時系列で可視化するツール「Sightings」の紹介
開発者のサイモン・ウィルソン氏が、2 つのアカウントから得た iNaturalist の観測データを時系列ごとにグループ化して確認するため、Claude Code for web を活用しスマートフォン上で独自に構築した CLI ツールを紹介している。
慈善団体を盗めない?エロン・マスクが OpenAI 訴訟で警告
エロン・マスクは OpenAI との訴訟裁判で、サム・アルトマンが同社を営利モデルへ転換したことが非営利理念への裏切りだと主張し、3 日間にわたる証言でメールやツイートなどの証拠を提示している。
ペンタゴン CTO がミソスに複雑さを指摘、アンソロピックは依然として排除される
ペンタゴンの Emil Michael CTO は、政府機関がサイバーセキュリティモデル「Mythos」の評価を検討しているものの、同社とアンソロピック社の関係修復は行われておらず、両社は依然として提携できない状態であると説明した。
GPT-5.5 がサイバーセキュリティテストで Mythos Preview に匹敵する性能を示す
英国の AI セキュリティ研究所(AISI)が実施した新たなサイバーセキュリティ評価において、先週公開された OpenAI の GPT-5.5 が、Anthropic の Mythos Preview と同程度の性能を達成したことが判明しました。
ペンタゴンが OpenAI、Google、Nvidia と機密 AI 契約を結ぶも Anthropic は除外
米国防総省は金曜日に発表し、OpenAI、Google、マイクロソフト、Amazon、Nvidia、イーロン・マスク率いる xAI、およびスタートアップの Reflection との間に、機密設定での AI ツール利用を認める契約を結んだと明らかにした。一方、従来から機密情報に使用していた Anthropic は今回の契約対象から除外された。
OpenAI、GPT-5.5-Cyber を限定公開へ、Anthropic の手法を批判しながらも同様の制限を実施
OpenAI は、数週間前に Anthropic が同様の制限措置を行ったことを批判していたにもかかわらず、新たなモデル「GPT-5.5-Cyber」を選抜されたサイバー防衛関係者のみに限定公開する方針を示した。
本日は特に目立った出来事なし
AIニュースの週報は、12 のサブレディットと 544 件のツイートを調査したが、特筆すべき進展や発表は見られず、静かな一日であったと報告している。
Cursor の買収と xAI の再評価(16 分読み)
AI エラにおいて最も運用面で成功したソフトウェア企業 Cursor が、創業者らによって 600 億ドルで xAI に売却された。この取引により xAI は SpaceX の IPO 前に投資家向けにアプリケーションを提供する機会を得た。
Qwen-Scope:知能の解読と可能性の開拓(9 分間読み)
アリババ傘下の通義千問チームは、Qwen3 シリーズ向け解釈性ツールキット「Qwen-Scope」を公開した。このツールはモデル内部メカニズムを可視化し、推論制御や最適化に寄与する。
空間生物学における新 Frontier モデルは高速化されたが信頼性は向上せず
GPT-5.5 は GPT-5.4 より実行時間が半分になったが精度は変わらず、Opus 4.7 も同様の結果を示した。一般推論の改善だけでは不十分で、統計設計やプラットフォーム固有の分析など専門的な訓練が必要である。
xAI が Grok 4.3 を発表
xAI は、知能指数を向上させつつ実行コストを削減した新モデル「Grok 4.3」を発表しました。同社は、このモデルが同等の性能を持つ他社製品よりも低コストであり、指示従事やエージェント型顧客対応タスクで高いパフォーマンスを発揮すると述べています。
Claude Security が一般ベータ版へ(4 分読了)
Anthropic は Claude Enterprise ユーザー向けに、Opus 4.7 モデルを活用したソフトウェア脆弱性の特定と修正を行う「Claude Security」の一般ベータ版を開始しました。マイクロソフトセキュリティやパロアルトネットワークスなどのパートナー企業が使用するツールに統合され、カスタム API 統合なしで効率的な継続的なコードスキャンを可能にし、数百組織からのフィードバックにより機能が強化されています。
リインフォースド・エージェント:ツール呼び出し型エージェントへの推論時フィードバック
ACL 2026 ワークショップで採択された研究が、LLM の軌道評価が事後処理に留まる課題を指摘し、実行ループ内でリアルタイムに修正可能な「リインフォースド・エージェント」の手法を提案した。
OpenAI の Codex CLI が新機能「/goal」を追加
OpenAI はコーディングエージェント「Codex CLI」のバージョン0.128.0をリリースし、ユーザーが目標を設定すると完了するまで自動でループ処理を行う新機能「/goal」を追加した。
OpenAI の GPT-5.5 のサイバーセキュリティ能力に関する評価
英国 AI セキュリティ研究所は、GPT-5.5 が脆弱性発見において Claude Mythos と同等の能力を持つと評価し、一般利用可能である点を指摘した。
Andrew Kelley氏によるLLM使用の検出可能性に関する発言
Andrew Kelley氏は、LLM(大規模言語モデル)の使用を完全に特定できないという誤解があるとし、人間とAIが犯すミスの違いや、エージェント型コーディング特有の「デジタルな匂い」から利用者を容易に識別できると指摘した。
Firefox 開発元、Google のブラウザ内 Prompt API 導入を批判
Mozilla は、Google が Chrome ブラウザに AI プラミング機能である Prompt API を組み込む決定に対し、同技術が既にテスト段階にあるにもかかわらず、引き続き反対の立場を表明した。
多様な「バイブコーディング」アプリの共有には RSS が不可欠であるという提言
Matt Webb は、バイブコーディングによる開発加速で個人向け・頻発するマイクロアプリが増える現状に対し、各ツールにインストールボタンを備えた RSS フィードの必要性を訴えている。
イーロン・マスク氏、xAI が OpenAI のモデルを Grok 学習に使用したと認める
カリフォルニアの連邦裁判所で証言したイーロン・マスク氏は、自身の AI スタートアップ「xAI」が、より小型のモデルを訓練するために OpenAI の大規模モデルを教師として利用する手法(モデル蒸留)を採用したことを認めた。
Google の AI アシスタント「Gemini」が数百万台の車両に搭載開始へ
Google は木曜日、Google Built-in を備えた車への Gemini の展開を開始すると発表した。これは現在の Google Assistant より高度な対話型 AI を運転体験に導入する動きであり、GM の発表に続く重要な技術進展である。
メタが AI ツールで「簡単にお金を稼ぐ」広告を展開
メタが昨年 20 億ドルで買収した AI 企業マヌスが、ウェブサイトの作成代行を提案して収益を得る手法を紹介する広告を配信している。同社はコンテンツクリエイターに報酬を支払ってこのキャンペーンを推進している。
GitHub Copilot CLI の初心者向けガイド:対話型と非対話型のモード解説
GitHub は、CLI ツール「Copilot CLI」の使い方を紹介するシリーズを開始し、本記事では対話型と非対話型の2つの主要モードの違い、起動方法、およびそれぞれの活用場面について解説している。
Google、Gemini AI を「Google Built-in」搭載車に展開開始
Google は、Google Built-in 搭載車両に対して従来の Google アシスタントから Gemini AI アシスタントへの更新を開始する。これにより、自然な会話や車両情報の取得、設定変更などの体験が向上すると発表している。
マイクロソフトとオープンエイトの新たな提携契約の内容解説
マイクロソフトとオープンエイトは、長年の複雑な関係を経て今週、新たな提携契約を結ぶことで合意しました。両社は経営陣の対立やインフラをめぐる不満など過去の緊張関係を乗り越え、AI 分野での協力体制を再構築します。
AI #166:Google の大規模売却と GPT-5.5 の登場
今週は OpenAI が「GPT-5.5」を発表し、Anthropic と競合する状況となった。また DeepSeek は 100 万トークンのコンテキストに対応した v4 を公開したが、これは最先端モデルではないと評価された。