AI週報 #339 - DLSS 5、OpenAIスーパーアプリ、MiniMax M2.7
NVIDIAは生成AIを活用した次世代グラフィックス技術「DLSS 5」を秋にリリースし、OpenAIはChatGPTとコーディング・ブラウザ機能を統合したデスクトップ「スーパーアプリ」への戦略転換を発表している。
キーポイント
DLSS 5の技術革新と実装
NVIDIAが従来の3Dレンダリングと生成AIを融合させ、単一フレームのセマンティクスと照明条件から詳細を生成する次世代アップスケーリング技術を開発。
アーティスト制御と初期反応の課題
開発者向けに強度・カラーグレーディング・マスキングなどの細かな制御を提供するも、初期テストではキャラクター顔や素材の意図しない変化が指摘され、アートディレクションへの影響懸念の声も。
OpenAIのビジネス特化型スーパーアプリ戦略
Fidji Simo氏主導によりChatGPT、Codex、Atlasブラウザを統合したデスクトップアプリへ移行し、散漫だった昨年の製品戦略からエンタープライズと生産性領域に集中。
市場への波及効果
ゲーム業界のグラフィックス標準と、AI企業のカスタマーフットプリント戦略に同時に変革をもたらす可能性を秘めている。
MetaがManusのAIエージェントをローカルデスクトップアプリ化
MacとWindows向けに提供される「My Computer」は、CLIコマンド実行やローカルファイル操作、GPU活用が可能で、プライバシー・セキュリティリスクが懸念されている。
MiniMax M2.7の低コスト高性能エージェント性能
SWE-ProやTerminal-Benchなどで高いベンチマークスコアを記録し、100回以上の自己学習サイクルと強化学習により30%の能力向上を実現している。
AIエージェント市場の収束とセキュリティ懸念
MetaやPerplexityなど主要企業が類似のエージェント機能を競合的に展開する中、システムレベルのコマンド実行を伴うため専門家はプライバシーとセキュリティのリスクを警告している。
影響分析・編集コメントを表示
影響分析
NVIDIAのDLSS 5は、生成AIをリアルタイムグラフィックスに組み込むことでゲーム開発のパイプラインと品質基準を再定義し、OpenAIのスーパーアプリ戦略はエンタープライズ向けAIツールの統合とロックインを促進する。これにより、開発環境の標準化が進む一方で、アーティスティックな制御権とAI生成の境界線に関する議論が業界全体に広がる可能性がある。
編集コメント
技術的飛躍は確実だが、クリエイターの制御権をどう設計するかで業界の受容度が分かれる。OpenAIの統合戦略も、機能過多を解消しビジネス現場に特化する方向性として妥当だ。
DLSS 5はビデオゲーム向けリアルタイム生成AIフィルターのようだ
関連記事:
NvidiaのDLSS 5は生成AIを使用してビデオゲームの写真写実性を向上させ、ゲーム以外への野心も持つ
要約: NvidiaはDLSS 5を発表し、従来の3Dレンダリングと生成AIを融合してリアルタイムで4Kまでの写真写実性を向上させる「グラフィックスのGPT的瞬間」と呼んだ。以前のDLSSアップスケーラーとは異なり、DLSS 5のエンドツーエンドAIモデルは単一フレームのシーン意味論(キャラクター、髪、布地、半透明の肌)と照明条件(順光、逆光、曇天)を分析して新しいディテールを生成する。『Resident Evil Requiem』、『Starfield』、『Hogwarts Legacy』、『EA Sports FC』からの初期例は、よりシャープな照明と影を示す一方で、キャラクターのマテリアルや顔への顕著な変更も見られる——例えば、『Requiem』のグレース・アッシュクロフトはより厚い唇と濃いアイシャドウで現れ、『Starfield』のモデルは舞台照明のように見え、過度にシャープ化されている。
Nvidiaは、フレームごとの色とモーションベクトルで出力を固定し、開発者に強度、カラーグレーディング、ブレンディング、コントラスト、彩度、ガンマ、オブジェクトごとのマスキング、除外ゾーンに対する詳細な制御を与えることで芸術的意図が保持されると述べている。それでも、マイク・ビセルのような一部の開発者は、この見た目をアートディレクションを排除するものとして批判した。技術面では、DLSS 5は構造化された3Dデータ(仮想シーンの「グラウンドトゥルース」)と、ゼロからすべてをレンダリングする代わりに画像要素を予測して埋めることができる生成的確率モデルを融合し、より少ない計算量で「美しく、驚くべき、そして制御可能な」結果を提供することを目指している。
DLSS 5は今秋のリリースを予定しており、『Starfield』、『Resident Evil Requiem』、『Hogwarts Legacy』、『EA Sports FC』、『The Elder Scrolls VI: Oblivion』リメイク、『Assassin's Creed Shadows』などのタイトルで初期サポートが確認されている。
編集者の見解: これに対する初期反応は非常に否定的に見えたが、これは大規模な技術的成果であることを考えると残念だ。Nvidiaはアーティストの制御を前面に押し出さず、これが単にゲームの見た目を悪くするだけの「AIフィルター」という印象を残してしまった。それでも、個人的には実際にどのように見えるか楽しみだ!
OpenAI、ビジネスと生産性のみに焦点を移行と報じられる
関連記事:
OpenAIはデスクトップ「スーパーアプリ」を計画中
慌てたOpenAI幹部がプロジェクトを削減、壁が迫る
OpenAIはAnthropicが先行する中、コーディングと企業向けにシフト
要約: OpenAIはビジネスと生産性に大きく舵を切っており、アプリケーション責任者のフィジ・シモがChatGPT、Codexコーディングプラットフォーム、Atlasブラウザを単一のデスクトップ「スーパーアプリ」に統合する計画を発表した。この計画は、同社を散らばらせ、複数の個別アプリがユーザーから不均一な反応を引き出し、内部の注意を異なる方向に引き離した昨年の製品戦略を覆すものだ。
内部メモでシモはこう書いている:「私たちは、あまりにも多くのアプリとスタックに努力を分散させており、努力を簡素化する必要があることに気づきました。その断片化は私たちの速度を遅らせ、望む品質基準に達することを難しくしていました。」
統合アプリの中心となるのは「エージェント的」AI——コンピューター上で独立して動作し、コーディングからデータ分析までのタスクを処理するように設計されたツール——だ。近い将来、Codexはコーディングを超えた生産性作業を処理するように拡張され、ChatGPTとAtlasは後のフェーズで統合アプリに組み込まれる。モバイル版ChatGPTアプリは変更されない。
緊急性は見逃せない。Anthropicの企業AI支出シェアは40%に上昇した一方で、OpenAIの同じ市場でのシェアは約半分から約27%に下落した。全体会議で、シモは従業員に、Anthropicが企業やコーディング顧客を獲得する急速な成功を考えると、「サイドクエスト」に気を取られる余裕はないと伝えたと報じられている。
編集者の見解: これは驚くべきことではないと言えるだろう——OpenAIの様々な賭け(Sora、Atlas、Prism)はあまり報われず、Codexへの集中不足は間違いなくAnthropicのClaude Code / Coworkとの競争力を損なった。Claude Codeの大ファンとして、CodexとClaudeの両方が改善されるよう、この分野に健全な競争があることは嬉しい。それ以外に、この「スーパーアプリ」が実際にリリースされると仮定して、どのようなものになるか興味深い。
*記録のため: このエムダッシュはAIではなく私が追加しました!
MetaのManus、ファイルやアプリを横断するタスク用AIエージェント搭載デスクトップアプリをローンチ
関連記事:
MetaのManusが「My Computer」をローンチ、MacをAIエージェントに変える
要約: Metaが新たに買収したスタートアップManusは、Mac(Apple Silicon)とWindows向けにデスクトップアプリをリリースし、そのエージェントシステム「My Computer」をローカルマシンに導入した。このアプリは中央のプロンプトとファイルやフォルダを添付するオプションを持つチャットボット形式のインターフェースを提供し、システムターミナルでコマンドライン命令(CLI)を実行してタスクを遂行する。機能には、ローカルファイルの読み取り、分析、編集。ローカルアプリケーションの起動と制御。数千枚の写真をカテゴリ別サブフォルダに分類したり、大量の請求書の名前を一括変更するなどのバルク操作の実行が含まれる。ファイル形式の変換、シンプルなアプリの構築、さらにはローカルGPUを使用して機械学習モデルをトレーニングしたり、大規模言語モデルを推論に実行することもできる。
このツールはリモートアクションとGoogleアプリ連携もサポートしており、ユーザーは例えばデスクトップファイルを取得して、外出中にエージェントにクライアントにメールで送信させることができる。自動化のために追加された各フォルダは、許可、常に許可、キャンセルの許可プロンプトをトリガーし、アプリは制限付き無料プランと月額20ドル(年払いで17ドル)からの有料プランで利用可能だ。このリリースは、OpenClawやPerplexityのPersonal Computerなどの類似AIエージェントへの注目に続くもので、システムレベルのコマンドを実行するエージェントからのプライバシーとセキュリティリスクについて専門家が警告している。Manusは中国で始まり、本社をシンガポールに移した。中国当局はMetaによるその買収の合法性を審査していると報じられており、Metaは以前はこのオンデバイス拡張の前にクラウドベースのサービスのみを提供していた。
編集者の見解: CodexとCoworkと言えば、Metaもそのトレンドに飛び乗っているということか?Manusにとっては理にかなっているとしても、少し奇妙な動きだ。2023年のLLMチャットボット、2024年の深い研究型エージェント、2025年の推論モデルのように、AIの大手プレイヤーは皆、新しいホットな(当然そうすべき)トレンドに投資し、一般的に非常に類似した提供物に収束しているようだ。
MiniMax M2.7テスト、ベンチマーク勝利と大幅なコスト削減を示す
関連記事:
MiniMaxがM2.7モデルをMiniMax AgentとAPIでローンチ
CursorのComposer 2、コーディングベンチマークでOpus 4.6を破り、価格は数分の一
要約: MiniMaxの新しいM2.7モデルは、異常に低コストで強力なエージェント的性能を示し、Swaybench/SWE-Proで56.22%、VIBE-Proで55.6%、Terminal-Bench 2で57%のベンチマックスコアを記録した。自律的自己改善を強調し、エージェントハーネスと強化学習を通じて100以上の自己トレーニングサイクルを実行し、同社はこれにより30%の能力向上、さらに40以上の複雑なスキルにわたる97%のスキル遵守、24Kコンテキストウィンドウが得られると述べている。リリースはMiniMax AgentとAPIでライブで、マルチエージェントコラボレーション、自律的デバッグ、研究エージェントハーネスなどをサポートする。
価格設定が際立っている: 入力トークン100万あたり0.30ドル、出力トークン100万あたり120ドルと低く、2倍価格のオプションファストモードがあり、M2.7をOpus 4.6よりも最大50倍安く位置づけながら、Gemini 3.1 Proに対する勝利と、金融、MLパイプライン、ゲーム開発、動的Web UIにおける企業ワークフローのための競争力あるTerminal-Bench 2性能を主張している。
関連して、CursorのComposer 2は手頃な価格のエージェント的コーディングへの並行した推進として登場し、Terminal-Bench 2.0でOpus 4.6を61.7%(対58.0%)で破り、入力/出力トークン100万あたり0.5ドル/2.5ドル(ファストモード1.5ドル/7.5ドル)だが、GPT-5.4の75.1%には及ばない。重要な技術的新規性は「自己要約」で、トークン長トリガーで一時停止し、自身のアクション履歴を5,000+から約1,000トークンに圧縮するようにモデルをトレーニングするループ内圧縮強化学習手法で、報酬は軌跡全体に及ぶ。Cursorは50%少ない圧縮エラーとより強力な長期視野タスク処理を報告している。
編集者の見解: MiniMaxと中国の研究所は一般に、その改善し続けるモデルで印象を与え続けており、現時点では西洋のクローズドソースモデルのみが可能だった多くのことを処理するのに十分以上に有能だ。Cursorは、Moonshot AIのKimiの上にComposer 2をトレーニングしたことで一部から批判を受けたが、これはかなり馬鹿げている——既に強力なオープンソースモデルから始めてさらにトレーニングすることは、既にフロンティアモデル開発が主要事業でないAI企業にとっては今や当然の動きであるべきだ。
その他のニュース
ツール
OpenAIはGPT-5.4 miniとnanoをリリース、より高速で高性能だが最大4倍高価に。これらの小型モデルは、コーディング、推論、マルチモーダルベンチマークにおいて完全版GPT-5.4にほぼ匹敵する性能を発揮しながら、より高速に動作し、40万トークンのコンテキストを提供する。ただし、入出力の価格は以前のminiおよびnanoモデルと比べて最大4倍高くなっている。
Mistralは企業向けにOpenAI、Anthropicに対抗し「自分で構築するAI」に賭ける。新しいForgeプラットフォームでは、企業が自社のデータからカスタムモデルを一からトレーニングしデプロイできる(Mistralのガイダンスと組み込みエンジニア付き)。言語、コンプライアンス、ドメイン固有のパフォーマンスといった企業ニーズをターゲットとしている。
Mistralの新しいSmall 4モデルは128のエキスパートモジュールでその規模を超える性能を発揮。クエリを128のエキスパートモジュール経由でルーティングするが、リクエストごとに4つだけを活性化して応答を高速かつ効率的に保つ。ユーザーは速度と徹底性をトレードオフでき、Apache 2.0ライセンスでHugging Face、MistralのAPI、Nvidiaプラットフォームで利用可能。
Nvidia、企業向けAIエージェントのプラットフォームを発表。この提供物はセキュリティ、プライバシー制御、ポリシー施行を提供し、企業がOpenClawスタイルの自律型AIアシスタントをデプロイしながら、データアクセスを制限し、アクションを制御し、監査を可能にする。
NVIDIA、OpenClawコミュニティ向けにNemoClawを発表。NemoClawは単一のコマンドでOpenShellとNemotronモデルをインストールし、サンドボックス化されたポリシー駆動型のプライバシーおよびセキュリティ制御を提供。これにより、常時稼働するOpenClawエージェントをローカルで実行したり、NVIDIA RTXおよびDGXシステム上のクラウドモデルを活用したりできる。
Google Workspaceで使う価値のあるGemini搭載機能。Googleは、Docs、Gmail、Sheets、Slides、Drive、Meet、Calendar、Chat、Vids、Formsにわたって実用的なツールを展開中。要約、ドラフト生成、データ抽出、自動会議メモ、スケジューリング支援、コンテンツフォーマットなど、日常のワークフローと情報管理を加速する。
Microsoft、AI画像モデルの第2世代バージョンを発表。このアップデートは画像品質と一貫性を向上させ、Microsoftの画像生成機能と開発者APIに展開されている。
AdobeのAI画像生成器が自身のアートでトレーニング可能に。ユーザーは自身のアセットでプライベートなFireflyカスタムモデルをトレーニングできるようになり、一貫性のあるキャラクターデザイン、イラスト、写真を大規模に生成できる。同時に、オプトアウトされたコンテンツが使用されるのを防ぐ。
Google、Gemini搭載のAI Studioで音声クローニングをテスト。隠された「Create Your Voice」オプションと関連UIのヒントは、GoogleがAI Studioにネイティブの音声クローニングを構築中であることを示唆(現在はGemini 2.5 Flashに関連)。これにより、開発者はユーザー提供のサンプルから合成音声を生成できるようになる。近々導入予定のGitHubリポジトリインポートやその他の開発者向け統合とともに。
Perplexity、消費者向けAI健康ツールをローンチ。この新しいツールは、EHR(電子健康記録)とウェアラブルデータを組み合わせて消費者向け健康インサイトを提供することを目指し、AI駆動の健康アシスタントがひしめく市場に参入する。
ビジネス

Waymo、深刻な混乱を回避しながら1億7,000万マイルを達成。Waymoは、自社のフリートが1億7,000万マイル以上を走行し、人間のドライバーよりもはるかに少ない重傷事故を報告している。しかし、データの提示方法、歩行者や緊急車両に関わる事故、事業規模の限界について、安全擁護団体からの精査に直面している。
OpenAI、AWSとの取引で政府分野を拡大と報道。この合意により、AWSはGovCloudおよび機密・極秘ワークロード向けClassified Regionsを通じてOpenAIのモデルを配布できる。一方、OpenAIは提供されるモデルを管理し、デプロイメント固有の保護策を課す権限を保持する。
Microsoft、Amazon-OpenAI取引に対して法的措置を検討か。Microsoftは、Amazon Web ServicesがOpenAIの新しい商用製品「Frontier」をホストすることが、OpenAIのモデルをAzure上で実行することを要求する独占条項に違反するかどうかを検討中と述べた。
Microsoft、CopilotがGoogleとOpenAIに遅れをとる中でAI部門を再編。この再編により、SuleymanはMicrosoft独自のフロンティア言語モデルの開発に専念し、Jacob AndreouがCopilotの消費者向けおよび商用製品の統合と成長を担当し、OpenAIへの依存を減らし、弱いユーザー採用に対処する。
Mistral AI、2つの新製品で企業向け推進を強化。新しい提供物には、Mistral Small 4(119Bパラメータのハイブリッドマルチモーダルモデルで、前身と比べて推論、コーディング、スループットが向上すると主張)と、企業が独自データでカスタムモデルをトレーニングできるプラットフォームMistral Forgeが含まれる。
Meta、AIモデレーションシステムが今後数年間で請負業者に取って代わると発表。同社は、FacebookとInstagram全体でAIサポートアシスタントを展開する計画で、今後数年間でサードパーティのモデレーション請負業者への依存を減らすと述べている。
OpenAI、開発者ツールスタートアップAstralを買収しCodexチームを強化。この小さなチームのエンジニアはOpenAIに加わり、Codexコーディングアシスタントに取り組む。急速なユーザー成長と継続的な買収活動の中で、同社の開発者ツールを強化する。
研究

V-JEPA 2.1: ビデオ自己教師あり学習における高密度特徴の解放。著者らは、すべてのトークンに適用される高密度予測損失(および深い階層的監視)を持つ統合画像・ビデオJEPA(Joint Embedding Predictive Architecture)をトレーニングし、予測、セグメンテーション、深度、ロボット計画性能を向上させる、より高品質な時空間高密度特徴を生成する。
Attention Residuals(注意残差)。この研究は、固定された等重みの残差集約を、前の層の出力に対する内容依存のソフトマックス注意(およびブロック単位でメモリ効率の良い変種)に置き換える。これにより、隠れ状態の希釈を防ぎ、深度方向の信号/勾配バランスを改善し、大規模LLM(大規模言語モデル)における下流タスクの性能を向上させる。
SWE-Skills-Bench: エージェントスキルは実際のソフトウェア工学で役立つのか?。このベンチマークは、既製のSWE(ソフトウェアエンジニアリング)エージェントスキルを注入しても平均的な改善は最小限(+1.2% 合格率)であり、ほとんどのスキルは利益をもたらさず、いくつかの専門スキルは最大+30%の向上を提供するが、慣習がプロジェクトコンテキストと一致しない場合には負の干渉を引き起こすこともあると結論付けている。
GradMem: テスト時勾配降下法でコンテキストをメモリに書き込む学習。この手法は、自己教師あり再構成損失を使用して、テスト時に少数の書き込み可能なメモリトークン埋め込みを最適化する(モデル重みは固定)。数回の勾配ステップでコンテキスト情報をコンパクトに保存し、順方向のみのエンコーディングよりも高いメモリ容量を実現し、一部の自然言語タスクに転移する。
Delightful Policy Gradient(魅力的な方策勾配)。提案された「Delightful Policy Gradient」は、各サンプルの方策勾配項に(アドバンテージ × アクションの驚き)のシグモイドに固定温度を乗じる。これにより、起こりそうにない、または既に解決されたアクションからの有害な更新を減らし、勾配を教師あり交差エントロピーに近づける。
懸念事項
OpenAI自身のメンタルヘルス専門家が「いたずらな」ChatGPTローンチに全会一致で反対。評議会メンバーは、AI生成のエロティカが不健全な情緒的依存を助長し、未成年が性的なチャットにアクセスすることを可能にすると警告。ユーザーが自傷行為に向かうよう促されるといったリスクについて懸念を提起した。
Encyclopedia BritannicaとMerriam-WebsterがOpenAIを提訴。BritannicaとMerriam‑Websterは、OpenAIが彼らのコンテンツを許可なくChatGPTのトレーニングに使用し、チャットボットがその著作権保護された資料を再現または密接に言い換えていると主張。これにより、オリジナルサイトへのトラフィックが減少しているとしている。
原文を表示
DLSS 5 looks like a real-time generative AI filter for video games
Related:
Nvidia’s DLSS 5 uses generative AI to boost photorealism in video games, with ambitions beyond gaming
Summary: Nvidia unveiled DLSS 5, calling it a “GPT moment for graphics” that blends traditional 3D rendering with generative AI to boost photorealism in real time up to 4K. Unlike prior DLSS upscalers, DLSS 5’s end-to-end AI model analyzes a single frame’s scene semantics—characters, hair, fabric, translucent skin—and lighting conditions (front-lit, back-lit, overcast) to generate new detail. Early examples from Resident Evil Requiem, Starfield, Hogwarts Legacy, and EA Sports FC show sharper lighting and shadows but also noticeable alterations to character materials and faces—e.g., Requiem’s Grace Ashcroft appearing with fuller lips and heavy eyeshadow, and Starfield models looking stage-lit and hyper-sharpened.
Nvidia says artistic intent is preserved by anchoring outputs with per-frame color and motion vectors and giving developers granular controls over intensity, color grading, blending, contrast, saturation, gamma, per-object masking, and exclusion zones; still, some developers like Mike Bithell criticized the look as removing art direction. On the technical side, DLSS 5 fuses structured 3D data (the “ground truth” of the virtual scene) with generative, probabilistic models that can predict and fill in image elements instead of rendering everything from scratch, aiming to deliver “beautiful, amazing, as well as controllable” results with less compute.
DLSS 5 is slated for release this fall with initial support confirmed for titles such as Starfield, Resident Evil Requiem, Hogwarts Legacy, EA Sports FC, The Elder Scrolls VI: Oblivion remake, and Assassin’s Creed Shadows.
Editor’s Take: The initial reaction to this seemed heavily negative to me, which is a shame considering this must be a massive technical achievement. Nvidia messed up by not making artist control front and center, leaving the impression that this is just an ‘AI filter’ that will just make games look worse. Still, personally i’m excited to see how this looks in practice!
OpenAI Reportedly Pivoting to a Focus on Business and Productivity Only
Related:
OpenAI is planning a desktop ‘superapp’
Panicked OpenAI Execs Cutting Projects as Walls Close In
OpenAI shifts to coding and enterprise as Anthropic pulls ahead

Summary: OpenAI is pivoting hard toward business and productivity, with Chief of Applications Fidji Simo announcing plans to merge ChatGPT, the Codex coding platform, and the Atlas browser into a single desktop “superapp.” The plan reverses a product strategy from last year that left the company scattered, with multiple individual apps that drew an uneven response from users and pulled internal attention in different directions.
In an internal memo, Simo wrote: “We realized we were spreading our efforts across too many apps and stacks, and that we need to simplify our efforts. That fragmentation has been slowing us down and making it harder to hit the quality bar we want.”
The centerpiece of the combined app will be “agentic” AI — tools designed to run independently on a computer and handle tasks ranging from coding to data analysis. In the near term, Codex will be expanded to handle productivity work beyond coding, with ChatGPT and Atlas brought into the unified app in later phases. The mobile ChatGPT app will remain unchanged.
The urgency is hard to miss. Anthropic’s portion of enterprise AI spending has climbed to 40% while OpenAI’s share of the same market fell from roughly half to about 27%. At an all-hands meeting, Simo reportedly told employees they couldn’t afford to be distracted by “side quests” given Anthropic’s rapid success winning over enterprise and coding customers.

Editor’s Take: I’d say it’s fair to call this unsurprising —* OpenAI’s various bets (Sora, Atlas, Prism) seemed not to have paid off much, and their lack of focus on Codex no doubt hurt their ability to compete with Anthropic’s Claude Code / Cowork. As a big fan of Claude Code, i’m happy there is healthy competition in the space to make sure both Codex and Claude improve. Aside from that, i’m curious to see what this ‘Superapp’ might look like, assuming it ever actually does release.
*For the record: I added that em-dash, not AI!
Meta’s Manus Launches Desktop App With AI Agent for Tasks Across Files, Apps
Related:
Meta’s Manus launches ‘My Computer’ to turn your Mac into an AI agent

Summary: Meta’s newly acquired startup Manus released a desktop app for Mac (Apple Silicon) and Windows that brings its agentic system “My Computer” onto local machines. The app presents a chatbot-style interface with a central prompt and options to attach files or folders, then executes command line instructions (CLI) in the system terminal to carry out tasks. Capabilities include reading, analyzing, and editing local files; launching and controlling local applications; and performing bulk operations like sorting thousands of photos into categorized subfolders or renaming large batches of invoices. It can convert file formats, build simple apps, and even use a local GPU to train a machine learning model or run a large language model for inference.
The tool also supports remote actions and Google app integrations so users can, for example, fetch a desktop file and have the agent email it to a client while away. Each folder added for automation triggers a permission prompt with Allow, Always Allow, or Cancel, and the app is available with a limited free plan and paid tiers starting at $20/month ($17 billed annually). The release follows attention on similar AI agents like OpenClaw and Perplexity’s Personal Computer, with experts warning about privacy and security risks from agents that execute system-level commands. Manus began in China and moved HQ to Singapore; Chinese authorities are reportedly reviewing the legality of its acquisition by Meta, which previously offered only cloud-based services before this on-device expansion.
Editor’s Take: Spearking of Codex and Cowork, I guess Meta is jumping in on that bandwagon as well? A bit of a weird move, even if it makes sense for Manus. As with LLM chatbots back in 2023, deep research-type agents in 2024, and reasoning models in 2025, it seems like all the big players in AI are investing in the new hot (deservingly so) trend and generally converging to very similar offerings.
MiniMax M2.7 Testing Shows Benchmark Wins & Major Cost Savings
Related:
MiniMax launches M2.7 model on MiniMax Agent and APIs
Cursor’s Composer 2 beats Opus 4.6 on coding benchmarks at a fraction of the price

Summary: MiniMax’s new M2.7 model posts strong agentic performance at unusually low cost, with benchmark scores of 56.22% on Swaybench/SWE-Pro, 55.6% on VIBE-Pro, and 57% on Terminal-Bench 2. It emphasizes autonomous self-improvement, running 100+ self-training cycles via agent harnesses and reinforcement learning that the company says yield a 30% capability lift, plus 97% skill adherence across 40+ complex skills and a 24K context window. The release is live on MiniMax Agent and APIs, supports multi-agent collaboration, autonomous debugging, research agent harnesses, and more.
Pricing is a standout: as low as $0.30 per million input tokens and $120 per million output tokens, with an optional fast mode at 2x price, positioning M2.7 as up to 50x cheaper than Opus 4.6 while claiming wins over Gemini 3.1 Pro and competitive Terminal-Bench 2 performance for enterprise workflows in finance, ML pipelines, game dev, and dynamic web UIs.
Relatedly, Cursor’s Composer 2 arrives as a parallel push on affordable agentic coding, beating Opus 4.6 on Terminal-Bench 2.0 with 61.7% (vs. 58.0%) at $0.5/$2.5 per million input/output tokens (fast mode $1.5/$7.5), though still below GPT-5.4’s 75.1%. A key technical novelty is “self-summarization,” a compaction-in-the-loop RL method that trains the model to pause on token-length triggers and compress its own action history to ~1,000 tokens from 5,000+, with rewards spanning the entire trajectory; Cursor reports 50% fewer compaction errors and stronger long-horizon task handling.
Editor’s Take: MiniMax and Chinese labs in general continue to impress with their even improving models, which at this point are more than capable of taking care of a lot of stuff that only Western closed source models used to be capable of. Cursor got some flak for training Composer 2 on top of Moonshot AI’s Kimi, which is quite silly - starting with already strong open source models and training them further should by now be the no-brainer move for any AI company whose primary business isn’t already frontier model development.
Other News
Tools

OpenAI ships GPT-5.4 mini and nano, faster and more capable but up to 4x pricier. These smaller models nearly match full GPT-5.4 on coding, reasoning, and multimodal benchmarks while running faster and offering a 400k-token context, but they come with input/output pricing up to four times higher than the previous mini and nano models.
Mistral bets on ‘build-your-own AI’ as it takes on OpenAI, Anthropic in the enterprise. The new Forge platform lets companies train and deploy custom models from scratch on their own data (with Mistral guidance and embedded engineers), targeting enterprise needs like language, compliance, and domain-specific performance.
Mistral’s new Small 4 model punches above its weight with 128 expert modules. It routes queries through 128 expert modules but activates just four per request to keep responses fast and efficient, lets users trade off speed versus thoroughness, and is available under Apache 2.0 on Hugging Face, Mistral’s API, and Nvidia platforms.
Nvidia Debuts Platform for Enterprise AI Agents. The offering provides security, privacy controls, and policy enforcement so companies can deploy OpenClaw-style autonomous AI assistants while limiting data access, controlling actions, and enabling audits.
NVIDIA Announces NemoClaw for the OpenClaw Community. NemoClaw installs OpenShell and Nemotron models with a single command to provide sandboxed, policy-driven privacy and security controls that let always-on OpenClaw agents run locally or leverage cloud models on NVIDIA RTX and DGX systems.
The Gemini-powered features in Google Workspace that are worth using. Google is rolling out practical tools across Docs, Gmail, Sheets, Slides, Drive, Meet, Calendar, Chat, Vids, and Forms—like summarization, draft generation, data extraction, automatic meeting notes, scheduling help, and content formatting—that speed up everyday workflows and information management.
Microsoft launched a second-generation version of its AI image model.. The update improves image quality and consistency and is being rolled out to Microsoft’s image-generation features and developer APIs.
Adobe’s AI image generator can now be trained on your own art. Users can now train private Firefly Custom Models on their own assets to produce consistent character designs, illustrations, and photos at scale while preventing opted-out content from being used.
Google tests voice cloning on AI Studio powered by Gemini. A hidden “Create Your Voice” option and related UI hints suggest Google is building native voice-cloning into AI Studio (tied to Gemini 2.5 Flash now) that would let developers generate synthetic voices from user-provided samples, alongside upcoming GitHub repo import and other developer-focused integrations.
Perplexity launches consumer-focused AI health tool. The new tool aims to combine EHR and wearable data to provide consumer health insights, entering a crowded space of AI-driven health assistants.
Business

Waymo hits 170 million miles while avoiding serious mayhem. Waymo reports its fleet has logged over 170 million miles with far fewer serious-injury crashes than human drivers but faces scrutiny from safety advocates over how it frames its data, incidents involving pedestrians and emergency vehicles, and the limited scale of its operations.
OpenAI expands government footprint with AWS deal, report says. The agreement lets AWS distribute OpenAI’s models through its GovCloud and Classified Regions for Secret and Top Secret workloads while OpenAI retains control over which models are offered and can impose deployment-specific safeguards.
Microsoft may take legal action over Amazon-OpenAI deal. Microsoft says it is reviewing whether Amazon Web Services hosting OpenAI’s new commercial product “Frontier” would violate an exclusivity clause that requires OpenAI’s models to run on Azure.
Microsoft Shakes Up AI Division As Copilot Falls Behind Google and OpenAI. The reorganization shifts Suleyman to focus solely on developing Microsoft’s own frontier language models while Jacob Andreou takes charge of unifying and growing the Copilot consumer and commercial products to reduce reliance on OpenAI and address weak user adoption.
Mistral AI makes enterprise push with two new launches. The new offerings include Mistral Small 4 — a 119B-parameter hybrid multimodal model claimed to improve reasoning, coding, and throughput versus its predecessor — and Mistral Forge, a platform that lets enterprises train custom models on proprietary data.
Meta says its AI moderation systems will replace contractors over the next few years.. The company plans to roll out an AI support assistant across Facebook and Instagram that it says will reduce reliance on third-party moderation contractors over the next few years.
OpenAI to acquire developer tooling startup Astral in boost for Codex team. The small team’s engineers will join OpenAI to work on its Codex coding assistant, bolstering the company’s developer tooling amid rapid user growth and ongoing acquisition activity.
Research

V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning. The authors train a unified image‑and‑video JEPA with a dense predictive loss applied to all tokens (and deep hierarchical supervision), producing higher‑quality spatio‑temporal dense features that improve forecasting, segmentation, depth, and robot planning performance.
Attention Residuals. This work replaces fixed, equal-weight residual aggregation with a content-dependent softmax attention over previous layer outputs (plus a blockwise, memory-efficient variant) to prevent hidden-state dilution, improve depth‑wise signal/gradient balance, and boost downstream performance in large-scale LLMs.
SWE-Skills-Bench: Do Agent Skills Actually Help in Real-World Software Engineering?. The benchmark finds that injecting off-the-shelf SWE agent skills yields minimal average improvement (+1.2% pass-rate), with most skills producing no benefit, a few specialized skills offering up to +30% gains, and some causing negative interference when conventions mismatch project context.
GradMem: Learning to Write Context into Memory with Test-Time Gradient Descent. The method optimizes a small set of writable memory‑token embeddings at test time using a self‑supervised reconstruction loss—keeping model weights fixed—to compactly store context information with a few gradient steps, yielding higher memory capacity than forward‑only encoding and transferring to some natural‑language tasks.
Delightful Policy Gradient. The proposed “Delightful Policy Gradient” multiplies each sample’s policy‑gradient term by a sigmoid of (advantage × action surprisal) with a fixed temperature to reduce harmful updates from unlikely or already‑solved actions and shift gradients closer to supervised cross‑entropy.
Concerns
OpenAI’s own mental health experts unanimously opposed “naughty” ChatGPT launch. Council members warned that AI-generated erotica could foster unhealthy emotional dependence and enable minors to access sexual chats, raising concerns about risks like users being encouraged toward self-harm.
Encyclopedia Britannica and Merriam-Webster Sue OpenAI. Britannica and Merriam‑Webster allege OpenAI trained ChatGPT on their content without permission and that the chatbot reproduces or closely paraphrases that copyrighted material, reducing traffic to the original sites.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み