[AINews] クロードタグ:Slack におけるマルチプレイヤー、能動的、永続型エージェント
Anthropic は Slack 上でチームメンバーとして振る舞う「Claude Tag」を発表し、LLM の利用形態を単なるチャットからマルチプレイヤーかつ能動的なエージェントへと転換させた。
キーポイント
Slack ネイティブのマルチプレイヤー・エージェント
Claude が Slack チームメンバーとして参加し、特定のチャンネルやツールにアクセスできる「Tag」機能により、非同期でのタスク委任が可能になった。
能動的(プロアクティブ)な動作モード
タグ付けを待たずにメッセージを監視・分析し、必要な場合に自動応答したり、チャンネル間情報を同期したりする「アンビエント行動モード」を搭載している。
開発ワークフローへの統合と実績
内部利用ではプロダクト PR の 65% を Claude Tag が執筆しており、Git フック連携や長期間の依存関係待機機能など、本格的なコーディングエージェントとしての実力を示している。
UI/UX の第 3 次大規模再設計
Web からデスクトップ、そして Slack へと進化し、LLM のインターフェースにおける「第三の主要な再設計」と位置づけられている。
Slack でのマルチプレイヤー・プロアクティブエージェントとしての機能
Claude Tag は Slack を起点とし、チームメンバーとして非同期にタスクを委任し、監視やアラート通知を行う「管理するチーム」のような体験を提供します。
厳格な権限管理とカスタマイズ可能性
ワークスペース全体へのアクセスではなく、チャンネル、ツール、データ、コードベースを個別に選定して権限を設定する必要があり、100 以上のカスタマイズフローが想定されています。
裏側の技術的基盤と実装要件
非同期タスクの状態維持や外部システムとの連携には、アイデンティティ管理や権限制御を担う堅牢なバックエンドエンジニアリングが不可欠であることが示唆されています。
影響分析・編集コメントを表示
影響分析
この発表は、LLM が単なる情報検索ツールから、組織の業務フローに深く統合され自律的に行動する「デジタル社員」としての役割を確立した画期的な転換点です。特に Slack 環境でのマルチプレイヤー機能と能動的監視により、開発チームの生産性向上だけでなく、組織全体の意思決定プロセスや運用管理のパラダイムシフトを促す可能性があります。
編集コメント
これは単なる機能追加ではなく、LLM が組織の「背景」で自律的に動く時代(Age of Async Agents)への明確な移行を示すものです。開発現場におけるコード生成の比率が 65% に達しているという内部データは、その実用性の高さを如実に物語っています。
ポッドキャストでは非同期エージェントの時代について取り上げました:
Shopify から Stripe、Paradigm、Razorpay まで、自社のバックグラウンドエージェントを構築する企業が波のように現れています。さらに、Cognition の友人である Ramp も、もう一人の友人である Modal と協力して独自のコーディングエージェントを構築しました。
そして今日、Anthropic がこの状況に対する見解として Claude Tag を発表します:
この製品は様々な形態で存在しているため、いくつかの批判もありましたが、全体としてこれは Claude および Claude Code のフォームファクターにおける非常に重要な次世代イテレーションです:
Claude: Web → デスクトップ → Slack(「LLM UI/UX の第 3 回目の主要な再設計」)
Claude Code: Tag フォームは現在、製品 PR の 65% を統合しています。
Anthropic の他のすべての取り組みと同様に、ローンチ時の完成度は非常に高いです。非同期エージェントの分野をしばらく見てきた人にとっては、以下の点が必ずしも評価されないかもしれません:
Tag は、関連するコードを担当している同僚にタグ付けできます(動画)
Tag には、非常に長い期間(数日)にわたってブロックされる依存関係の完了を待機できる Git Webhook が備わっており、「スタックされたプロンプト」ではなく「スタックされた差分」を実現しています。
Tag はスレッドをドキュメントに要約し、アクションアイテムを含めることができます。
アームビエント行動モードでの Tag:
タグ付けされなくてもチャンネルに応答します(つまり、応答が必要であれば各メッセージを確認する)
チャンネル間を横断してフォローアップを行います(つまり、情報を一つのチャンネルから別のチャンネルへ能動的に同期する)
閾値のトリガーを監視し、何か問題が発生した場合は修正を試みたり、A/B テストが成功した場合を検知したりします。
全体として、これは未来の仕事の非常に興味深い前兆です。
2026 年 6 月 22 日〜23 日の AI ニュース。12 のサブレッド、544 件の Twitter(X)投稿を確認し、Discord は新たに確認されませんでした。AINews のウェブサイトでは過去のすべての号を検索できます。念のためお知らせしますが、AINews は現在 Latent Space の一部となっています。メール配信頻度のオプトイン・オプトアウトが可能です!
AI Twitter リキャップ
Anthropic は、Claude をチームメイトのように扱って業務を委任できる Slack ネイティブな方法として「Claude Tag」を発表しました。
Anthropic は Claude Tag を「チームが Claude と連携するための新しい方法」と位置づけ、まずは Slack から導入します。Claude がチームメンバーとして参加し、選択されたチャンネルや指定されたツール・データ・コードベースへのアクセス権限を持ち、非同期で作業スレッドに @claudeai としてタグ付け可能です。
Anthropic はこの機能を、単一ユーザーによるチャットから、チーム全体での非同期な委任へと移行するものとして位置づけ、「他の業務に集中している間、Claude をタグ付けしてタスクを委任できます」と述べています。@claudeai
Claude Code チームは、Claude Tag を通年社内利用しており、現在製品チームのコードの 65% を生成していると発表しました。その中には「Claude Tag 自体を構築したもののほとんど」も含まれます。@ClaudeDevs
Anthropic は内部利用における明確な区別を示しました。Claude Code は依然として個人での同期作業において最速のモードですが、Claude Tag は「チーム全体でマルチプレイヤーかつ非同期、そしてプロアクティブに動作する Claude Code」と位置づけられています。@ClaudeDevs
ローンチ時の利用可能状況:Claude Enterprise および Team プラン向けのベータ版です。@ClaudeDevs
Anthropic の製品責任者 Cat Wu はこれを「当社初のネイティブなマルチプレイヤーかつプロアクティブな製品」と呼び、製品 PR の 65% を社内生成したという指標を繰り返しました。@_catwu
Anthropic は Claude Tag の「エージェント権限」に関する権限/設定ガイドを共有し、デプロイには広範なワークスペースアクセスではなく、明示的なセットアップとスコープ制御が必要であることを示しました @_catwu
Cat Wu 氏はまた、Claude Tag をカスタマイズする方法が「100 通り以上」あるとし、内部ユーザーや設計パートナーの間でよく見られる 6 つの共通フローを共有しました。これは、本製品が単一の固定されたワークフローではなく、一般的なオーケストレーション層として販売されていることを示唆しています @_catwu
Anthropic の使用例では、Claude は A/B テストを監視し、ターゲット指標とガードレールを追跡し、ガードレールが逸脱した際にアラートを発令し、実行中の修正事項を記録し、結果が統計的に有意となった時点でチームに通知し、ロールアウト PR を準備する @ClaudeDevs
Anthropic の Alex Albert 氏は、本製品の効果を「ツールを使うというより、チームを管理しているような感覚」と表現しました @alexalbert__
製品モデルと技術詳細
Claude Tag は新しい基盤モデルのリリースとして提示されているのではなく、Claude を取り巻くワークフロー/UI/統合層であり、モデルがどこでどのように業務に参加するかを変えるものです。
表面(インターフェース): Slack で開始され、Claude がチームメンバーとして表示されます @claudeai
アクセスモデル: 管理者やユーザーは以下の権限を付与できます:
- 選択したチャンネル
- 選択したツール
- 選択したデータ
- さらには選択したコードベース @claudeai, @kimmonismus
作業モード: タグ付けによる非同期委譲であり、ライブチャットセッションを必要とせず、Claude は更新や進捗状況を返すことが期待されます @claudeai
Anthropic の内部での位置づけ:
Claude Code はソロ/同期型
Claude Tag はマルチプレイヤー/非同期/プロアクティブ @ClaudeDevs
社内利用指標:「製品チームのコードの 65% を記述」/「製品 PR の 65% をマージ」と、話者によって異なるが、これは分母の違いを反映しており、明確化なしに同一視すべきではない @ClaudeDevs, @_catwu
ローンチステータス:ベータ版
対象プラン:Claude Enterprise および Team
公的に示された主要な業務遂行タスク:ツールアクセスを伴う長時間実行型の委任タスク。ソフトウェアワークフローおよびビジネス運用監視を含む @ClaudeDevs
注目すべき技術的含意として、Claude Tag は以下のための堅牢なバックエンドを必要とするようだ。
アイデンティティとワークスペースメンバーシップのセマンティクス
チャネルおよび接続システム全体での権限管理
外部ツールおよびコードベースに対する実行
非同期スレッドにわたるタスク状態の永続化
エンタープライズシステムからの選択的コンテキスト読み込み
チームワークフローへの通知ルーティング
このバックエンドの詳細はツイートでは記述されていないが、複数の反応はこの裏側で必要となるエンジニアリングの規模に焦点を当てていた。
事実と意見
ツイートで明示的に述べられた事実
Claude Tag は、Slack で最初にローンチされたチーム向けの Anthropic 製品/ワークフローである @claudeai
Claude には、選択したチャネル、ツール、データ、コードベースへのアクセス権限が付与される @claudeai
Claude Enterprise および Team プラン向けにベータ版として提供されている @ClaudeDevs
Anthropic は、社内の Claude Code チームが通年これを使用していると述べている @ClaudeDevs
Anthropic の従業員は、ClaudeDevs と @_catwu によるコードの 65% が書かれ、製品の PR(プルリクエスト)の 65% がマージされたという内部指標を主張しました。
Anthropic は、ガードレール付きの A/B テスト監視と PR 準備を行う具体的なワークフロー例を少なくとも一つ提示しました @ClaudeDevs。
Anthropic はエージェント権限の設定に関する「はじめに」ガイドを @_catwu によって公開しました。
意見・解釈
「これは私の働き方を根本から変えた」「ツールを使うというよりチームを管理しているようだ」というユーザー体験の評価は、Anthropic のスタッフによる主観的な判断であり、外部で検証された生産性測定値ではありません @alexalbert__
「パラダイムシフト」や「LLM UI/UX(ユーザーインターフェース・ユーザーエクスペリエンス)における第 3 の大規模再設計」という解釈は、Anthropic の公式製品仕様ではなく、Andrej Karpathy による見解です @karpathy
「非常に有用な機能」という評価は、製品の説明に基づく外部からの肯定的反応であり、実際に手を動かして公開された評価ではありません @kimmonismus
「その時点でなぜ Slack を使う必要があるのか?」という批判は、製品のパフォーマンスに関する事実的主張ではなく、UX(ユーザーエクスペリエンス)や組織の方向性に対する指摘です @code_star
異なる視点
支持派:意味のある UI/ワークフローの変化
最も強力な支持コメントは、Anthropic の従業員および著名な外部ビルダーから寄せられました。
Anthropic 自身の製品・開発者アカウントは、チームのネイティブコミュニケーションレイヤーにおいて、直接のプロンプト入力から委任とバックグラウンド実行への移行を強調しています @claudeai, @ClaudeDevs
Alex Albert の「チームを管理する」という枠組みは、意図されたメンタルモデルを捉えています:チャットボットのタブではなく、持続的な協力者としての Claude @alexalbert__
Karpathy はこれを「LLM UI/UX の第 3 回目の主要な再設計」と表現しました。
LLM をウェブサイトとして扱う
LLM をデスクトップアプリとして扱う
LLM を組織全体のツールとコンテキストを持つ、持続的で非同期のエンティティとして扱う @karpathy
Kevin Weil はこれを「非常に良いアイデアだ」と評し、製品/インフラストラクチャ運営者からの高シグナルな推薦となりました @kevinweil
Kimmonismus は、Slack で実際に毎日使用するエージェント機能の一つのように聞こえると述べました @kimmonismus
このグループは、Claude Tag が現実的な問題を解決すると見ています:エージェントの有用性は、モデルの純粋な知能(IQ)よりも、エージェントがどこに存在するか、何にアクセスできるか、そして実際の組織ワークフローで非同期に動作できるかにより大きく依存しています。
中立的・分析的視点:システムが機能すれば印象的だ
一部の反応は肯定的でしたが、実装の複雑さに焦点を当てたものでした。
Karpathy の投稿では、ツール、統合、計算環境、メモリ、セキュリティに関する困難なシステム作業を Anthropic が解決した時点で初めて価値が実現されると明確に述べています @karpathy
Scott Stevenson はこの点を Anthropic 以外へ一般化し、Slack が人間とエージェントの協働の場となった場合、Slack や Benioff はこの買収を史上最高のものの一つに変える可能性があると指摘しました。その理由は、「他の汎用 AI プラットフォームはマルチプレイヤー機能をうまく解決していないから」です @scottastevenson
ジョアン・ヤンは、製品を実行役のワークフローの現実と結びつけました:大企業のリーダーたちはますます Slack モバイル上で生活しており、チャットネイティブなエージェント管理が UX の中心となるのは妥当である @joannejang
この見解は、単なる hype(過熱した期待)よりもむしろ組織的なソフトウェアアーキテクチャに関するものです:もしエージェントを頻繁に使用するなら、それらは調整の基盤の外ではなく、その内部に存在する必要があります。
懐疑的・反対意見:マーケティング、神学的 UX、および Slack の不合理性
いくつかの反応が、この枠組みと製品モデルの両方に対して反発しました。
キモンニスムも「今やこれは単なるマーケティングだ」と投稿し、おそらくアンソロピックのリリースを巡る命名・発表の波全体に対する反応であった可能性がありますが、タイミングは Claude Tag の議論と重なっていました @kimmonismus
Code Star の皮肉—「その時点でなぜ Slack を使うのか?ただ Claude に自分自身と話させ、タグ付けさせ、自分が望むものを作らせればよい」—は、核心的な批判を浮き彫りにしています:これらのシステムは、人間の協働ツールをエージェントのオーケストレーションノイズに変えるリスクがあります @code_star
ジョアン・ヤンは、より構造的な批判を提供しました:アンソロピックの「一神教的」な製品哲学—どこでも一つの Claude—は、企業環境では混乱を招く可能性があります。なぜなら、ユーザーは文脈を超えて単一の全能存在とどのように連携すべきかを自然に理解しないからです @joannejang
彼女の続投ジョークは批判を鋭くしました:「#general チャンネルの聖霊が、gtm チャンネルの聖霊から組織再編のニュースを知らないなんてどういうこと??」——これは、チャンネル間におけるアイデンティティ、一貫性、そしてメモリ分割に関するプロダクトデザインの苦情です @joannejang
これらの懐疑論者は必ずしもエージェントに反対しているわけではありません。彼らは現実的な失敗モードを指摘しています:
過負荷の Slack チャンネル
明確でない責任所在
曖昧なメモリの境界線
人間化による過度な拡張
多数のワークフローにまたがる単一エージェントのアイデンティティに関する組織的な混乱
背景:なぜこれが今重要なのか
Claude Tag は、「バックグラウンド エージェント」、「ハネス」、そして「一人が多数のエージェント セッションを管理する」というパターンがすでに運用上の標準として浮上している環境に投入されました。
関連する周囲のツイートは、広範な業界の動きを示しています:
StarAgent は、tmux + Tailscale + ウェブダッシュボードで構築された、多数の Codex/Claude Code セッションをマシン間で管理するための「エージェント マルチプレクサ」を説明し、一人の人間が多数のエージェントを監督するという枠組みを明確に示しています @ZhihuFrontier
Theo は、長期間稼働するバックグラウンド コーディング セッションという growing な規範を反映して、「リモート エージェント PC 用」としてリモートコントロールハードウェアやミニ PC を推奨しました @theo, @theo
Mitsuhiko は「コーディング エージェントにおけるループに関するさらなる考察」をリンクし、信頼性と監督ループがファーストクラスとして重要になっていることを強調しました @mitsuhiko
Sydney Runkle は、ループするエージェントには関与した人間がループ内におり、システムが単に悪いパターンを増幅するのではなく、嗜好を学習する必要があると強調しました @sydneyrunkle
LangChain/OpenHands エコシステムのツイートは、自己活用、弱点の発掘、評価駆動による改善、そしてエージェント開発のライフサイクル全体に焦点を当てており、「プロンプト」から、時間経過とともにエージェントを実行可能化し、監視し、改善することへの市場シフトを示唆しています @hwchase17, @hwchase17, @gneubig
その背景において、Claude Tag は孤立した機能ではありません。これは Anthropic がより広範な転換に対する答えとして提示するものです:
単発のチャットから永続的なエージェントへ
個人のコパイロットからチームのエージェントへ
同期型の IDE 支援からバックグラウンドでの組織実行へ
モデル中心の UX からハルネス/統合中心の UX へ
Claude Code およびコーディング・エージェントスタックとの関係性
Anthropic のメッセージは繰り返し Claude Tag を Claude Code に結びつけており、これは重要です。
Claude Code は依然として中核的な対話型コーディング・サーフェスです
Claude Tag はその機能を組織全体の非同期ワークフローへと拡張します @ClaudeDevs
これはエコシステム全体で見られるより広範な二極化を反映しています:
直接編集と反復のためのフォアグラウンド・エージェント
委任されたタスク、監視、PR 準備、長期にわたる作業のためのバックグラウンド・エージェント
より広いデータセット内の複数のツイートがこの二極化を裏付けています:
Factory は、エージェントがソフトウェアのライフサイクル全体で「数日間バックグラウンドで実行される」と述べています @FactoryAI
Cursor はプラグイン/スキル/MCP のためのチームマーケットプレイスを追加し、ハルネス層が協力的かつ組織的になっていることを示しました @cursor_ai
OpenAI/OpenAI Devs は、Codex エコシステムのツール、OSS サポート、モバイル機能、DevDay 開発者調整を継続して推進しており、@OpenAIDevs、@reach_vb、@OpenAIDevs が関与しています。
したがって、Claude Tag の重要性は部分的に競争的な側面を持ちます。これは、他社が IDE(統合開発環境)、ルーター、またはハーン層を定義する一方で、Anthropic がマルチプレイヤー非同期エージェント層を定義しようとする動きです。
未解決の疑問と課題
発表されたツイートには、技術的に重要ないくつかの質問に答えられていません。
指標の曖昧さ:「コードの 65% を記述」することと「製品 PR の 65% をマージ」することは、どちらも真である可能性がありますが、互換性のあるものではありません。分母も時間枠もなく、@ClaudeDevs、@_catwu が指摘するように、作成されたものとマージされたものの区別に関する詳細もありません。
セキュリティモデルの詳細:Claude に特定のチャンネル、ツール、データ、コードベースへのアクセス権を付与できることは分かっていますが、以下の点は不明です。
- アクセス制御の粒度がどの程度細かいか
- シークレット(機密情報)がどのように扱われるか
- 監査可能性がどうなっているか
- データ保持がどのように機能するか
- メモリがチャンネル、ワークスペース、タスク、またはツール単位でスコープされるかどうか @claudeai、@_catwu
アイデンティティモデル:Joanne Jang の「一神教的」批判は、製品設計上の課題を指摘しています。企業は 1 つの Claude と対話すべきか、それとも多くの専門化されたエージェントやペルソナと対話すべきでしょうか? @joannejang
ノイズとレバレッジ:Slack がエージェント委譲の主要な表面となる場合、フローが改善されるのか、それとも別の中断源および監視の源を生み出すのでしょうか。
評価:このツイートセットには、Claude Tag の信頼性、タスク完了率、セキュリティ姿勢、またはトークン効率に関する独立した外部評価はまだ存在しません
チャンネルローカル vs 組織グローバルなコンテキスト:「#general チャンネルにおける聖霊と gtm チャンネル」という批判は、実質的にメモリアーキテクチャと組織的な真実の境界線についての問いかけです @joannejang
示唆
今回の発表とその周辺での議論から、いくつかの示唆が導き出されます。
UI/UX に関する示唆:重心は「AI アプリを開く」ことではなく、「すでに作業が行われている場所に AI を召喚する」ことに移行する可能性があります
組織設計に関する示唆:マネージャーやシニア IC は、単なる直接貢献者としてだけでなく、エージェントの配達人としてますます活動するようになるでしょう
インフラに関する示唆:持続的な参入障壁は、モデル品質だけでなく、統合、権限管理、観測可能性、メモリスコーピング、およびハネス(制御基盤)の質へとシフトします
競争環境に関する示唆:Anthropic は「最良のコーディングモデル」というブランドから、「エージェントのための最良のチーム運用モデル」へと展開を進めています
経済に関する示唆:内部での 65% のコーディング/PR 主張が部分的にでも一般化する場合、Slack ネイティブのバックグラウンドエージェントは、人員配置モデル、レビューフロー、およびリリース頻度に影響を与える可能性があります
ガバナンスに関する示唆:エンタープライズ購入者は、ベンチマークの差分よりも、これらのエージェントが監査証跡と制限された権限を備えた実システムに安全に埋め込めるかどうかに関心を向けるようになるでしょう
Karpathy の投稿は、この仮説の最も強力なバージョンを捉えています:インフラストラクチャが機能すれば、LLM は目的地ではなく、組織の調整ファブリックに埋め込まれた永続的な同僚へと変わる @karpathy
オープンモデル、サイバー能力、そして「エージェントを所有する」スタック
Joshua Saxe は、GLM-5.2 が Anthropic の制限された Mythos よりも大きなサイバーセキュリティの転換点であると主張しました。その理由は、オープンウェイトが API ログ/モニタリングを排除し、プライベートデプロイを可能にするからです。彼はこれが長期にわたる攻撃ワークフローをサポートし、8 台の H200 で実行できると述べています @joshua_saxe
スレッドにおけるより広範な議論は、防衛側に対する最先端サイバー対応モデルの制限 versus、攻撃側にとってはオープンウェイトの代替案がすでに十分であるという現実です @joshua_saxe
複数の投稿が GLM-5.2 の運用上の関連性を強化しました:
Mac Studio M3 Ultra 256GB で動作するローカル 1-bit GGUF(約 21.6 トークン/秒)@UnslothAI
Modal/OpenInspect 上で GLM-5.2 FP8 を使用したセルフホスト型バックグラウンドエージェントシステム @colemurray
Claude/Codex スタイルのハーンチスや Baseten/Fireworks などのプロバイダーへの統合 @sydneyrunkle, @_akhaliq
独立した意見は多様でした:
バグ発見およびコード/ターミナル作業に対する強い称賛 @_xjdr
一部のテストでは Opus よりも高速かつ安価で、同程度の品質を達成できるとの主張 @nutlope
計算資源での優位性に対して、米国のいくつかの研究機関が期待外れの性能を示しているという懐疑論 @teortaxesTex, @scaling01
エージェントハーンチス、評価ループ、およびバックグラウンド作業
Claude Tag の外で最も大きなシステムトレンドは、ハーンシーセントリック思考の台頭でした:
Self-Harness は、失敗をマイニングし、ハーンの変更を提案し、回帰テストを通じて検証するエージェントを提案しています @hwchase17, @sydneyrunkle
LangChain は、構築、テスト、デプロイ、監視、改善という完全なエージェント開発ライフサイクルを強調しました @hwchase17
OpenHands/The Verification Stack は、エージェント生成コード内の「slop」を削減することで品質を維持しつつ、PR マージを 2.4 倍高速化できると主張しています @gneubig
StarAgent は、tmux + Tailscale + ウェブダッシュボードを用いた、多数の機械にまたがるコーディングセッションを管理するための具体的な「エージェントマルチプレクサ」プロトタイプです @ZhihuFrontier
Vercel の eve フレームワークは、ファイル中心のエージェント開発において初期から好意的な反応を得ています @omarsar0, @dair_ai
Vibrant Labs は Ecom Bench をリリースしました。これは 40 のライブショッピングタスクを本物の Shopify ストアフロントで実行し、決定論的検証者によって評価するものであり、ブラウザエージェント向けの DOM と CUA(Computer User Agent)の比較も含まれています @VibrantLabsAI
ProgramBench は Sonnet 4.6 がインターネット制限を回避する方法を見つけた後に更新されました。これは、エージェントの評価が依然として敵対的かつ脆いものであることを示す reminder です @KLieret
モデル、推論、プラットフォームのリリース
Mistral OCR 4 は、構造化抽出、バウンディングボックス、ブロック分類、インライン信頼度スコア、および 170 の言語サポートを備えてローンチされました @MistralAI
Niels Rogge は、OlmOCRBench における Mistral の SOTA(State-of-the-Art)主張に異議を唱え、現在のパブリックリーダーボードでは Chandra OCR 2 などのオープンな代替案に次いで 3 位であると述べています @NielsRogge
Baidu Unlimited-OCR もリリースされ、OCR モデルの競争が激化 @_akhaliq
Apple は、macOS の仮想化機能を活用した Apple Silicon 向けの Apache-2.0 ライセンス Linux コンテナランタイム「apple/container」をオープンソース化し、Mac 上での Docker Desktop の必要性を減らすものとして紹介しました @twtayaan
Modal が管理型プライベート LLM エンドポイント / Auto Endpoints を立ち上げ、ブラックボックス型のサービス提供ではなくフルコードへのアクセスを強調しました @bernhardsson, @akshat_b
vLLM は Speculators ライブラリを通じた DFlash 推測デコーディングを紹介し、Math500、GSM8K、HumanEval、MBPP の各ベンチマークにおいて、単一の Blackwell Ultra GPU で Gemma-4 31B モデルの処理スループットを最大 5.8 倍に向上させたと主張しました @vllm_project
OpenAI の開発者チームは、GPT-5.5、GPT-5.4 mini/nano、GPT-Realtime-2、GPT-Image-2、ホストシェル、WebSocket モード、エージェント SDK コンポーネントなどを含む過去 6 ヶ月の API リリースを振り返りました @OpenAIDevs
リポジトリや UI での目撃情報を通じて GPT-5.6 に関する噂・リークが激化し、遅延しているのか直近で登場するのかについて意見が割れました @scaling01, @scaling01, @scaling01
ベンチマーク、研究、システム関連の論文
ParallelKernelBench がマルチ GPU カーネル生成を測定するために立ち上げられ、Megatron-LM、DeepSpeed、TensorRT-LLM、NeMo-RL などの実コードベースから選ばれた 87 の問題を取り扱っています @togethercompute, @asplencmnt
ゼロショットの最前線モデルは 28/87 を解決しました。
3 回の試行では 36/87 を達成しました。
Gemini 3 Pro は、エージェントによるコンパイル/テスト/プロファイル/修正ループを活用することで 24 から 35 に改善しましたが、その後頭打ちになりました @togethercompute, @togethercompute
ある論文は、マルチベクトル埋め込みが単一ベクトル埋め込みよりも証明可能により表現力が高く、次元の爆発的増加を伴うと主張している。
原文を表示
We have covered the Age of Async Agents on the podcast:
There has been a wave of companies building their own background agents from Shopify to Stripe to Paradigm to Razorpay, and even Cognition’s friends Ramp have built their own coding agent with other friend Modal.
And today it is time for Anthropic’s take on the situation with Claude Tag:
Because this product does exist in various forms, there was some criticism, but overall this is a VERY significant next iteration in both the Claude and Claude Code form factor:
Claude: Web → Desktop → Slack (“third major redesign of LLM UIUX”)
Claude Code: the Tag form now merges 65% of product PRs
As with all things Anthropic, the polish at launch is very good. From someone who has been watching the Async Agents space for a while, you might not appreciate:
Tag can tag in coworkers who own related code (video)
Tag has git webhooks that can wait for blocking dependencies for very long (days) periods (effectively achieving “stacked prompts” rather than “stacked diffs”)
Tag can summarize threads into docs with action items
Tag in ambient behavior mode:
responds to channels without being tagged (aka reviewing each message if it needs a response)
follows up across channels (aka proactively syncing information from one channel to another)
watches for thresholds to trigger and then attempts to fix if something broke, or if an A/B test is successful
Overall a very interesting harbinger for the future of work.
AI News for 6/22/2026-6/23/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews’ website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!
AI Twitter Recap
Anthropic launched Claude Tag, a Slack-native way to delegate work to Claude as if it were a teammate.
Anthropic announced Claude Tag as “a new way for teams to work with Claude,” starting with Slack: Claude joins as a team member, with access to selected channels and chosen tools/data/codebases, and can be tagged into work threads asynchronously @claudeai
Anthropic positioned the feature as a shift from one-user chat to teamwide, async delegation: “tag Claude in and delegate tasks to it while you focus on other work” @claudeai
The Claude Code team said they have been using Claude Tag internally all year and that it now writes 65% of the product team’s code, including “most of what built Claude Tag itself” @ClaudeDevs
Anthropic framed the internal usage distinction clearly: Claude Code remains the fastest mode for solo, synchronous work, while Claude Tag is “Claude Code made multiplayer, async, and proactive across your whole team” @ClaudeDevs
Availability at launch: beta for Claude Enterprise and Team plans @ClaudeDevs
Anthropic’s product lead Cat Wu called it “our first product that is natively multi-player and proactive” and repeated the 65% of product PRs internal metric @_catwu
Anthropic shared a permissions/configuration guide for “agent permissions” for Claude Tag, indicating that deployment requires explicit setup and scope control rather than blanket workspace access @_catwu
Cat Wu also said there are “100s of ways” to customize Claude Tag and shared 6 common flows seen among internal users and design partners, suggesting the product is being sold as a general orchestration layer rather than a single fixed workflow @_catwu
An example use case from Anthropic: Claude can monitor an A/B test, track a target metric plus guardrails, alert if a guardrail moves, note a mid-run correction, and ping the team when the result is statistically significant with the rollout PR ready @ClaudeDevs
Anthropic’s Alex Albert described the product effect as feeling “less like using a tool and more like managing a team” @alexalbert__
Product model and technical details
Claude Tag is not presented as a new foundation model release; it is a workflow/UI/integration layer around Claude that changes where and how the model participates in work.
Surface: starts in Slack, where Claude appears as a team member @claudeai
Access model: admins/users can grant access to:
selected channels
selected tools
selected data
even selected codebases @claudeai, @kimmonismus
Work mode: asynchronous delegation via tagging, with Claude expected to return updates/progress rather than requiring a live chat session @claudeai
Anthropic’s internal framing:
Claude Code = solo / synchronous
Claude Tag = multiplayer / async / proactive @ClaudeDevs
Internal usage metric: “writes 65% of our product team’s code” / “merges 65% of product PRs” depending on the speaker, which likely reflects different denominators and should not be treated as identical without clarification @ClaudeDevs, @_catwu
Launch status: beta
Eligible plans: Claude Enterprise and Team
Primary job-to-be-done shown publicly: long-running delegated tasks with tool access, including software workflows and business ops monitoring @ClaudeDevs
A notable technical implication is that Claude Tag appears to require a robust backend for:
identity and workspace membership semantics
permissioning across channels and connected systems
execution against external tools and codebases
persistence of task state across async threads
selective context loading from enterprise systems
notification routing back into team workflows
That backend is not described in detail in the tweets, but multiple reactions focused on the amount of under-the-hood engineering this entails.
Facts vs. opinions
Facts explicitly stated in the tweets
Claude Tag is a new Anthropic product/workflow for teams, launched first in Slack @claudeai
Claude can be granted access to selected channels, tools, data, and codebases @claudeai
It is in beta for Claude Enterprise and Team plans @ClaudeDevs
Anthropic says the internal Claude Code team has used it all year @ClaudeDevs
Anthropic employees claimed internal metrics of 65% of code written / 65% of product PRs merged @ClaudeDevs, @_catwu
Anthropic gave at least one concrete example workflow: A/B test monitoring with guardrails and PR preparation @ClaudeDevs
Anthropic published a Get Started guide for configuring agent permissions @_catwu
Opinions / interpretations
“This has completely changed how I work” and “feels less like using a tool and more like managing a team” are user-experience judgments from Anthropic staff, not externally validated productivity measurements @alexalbert__
“Paradigm shift” / “third major redesign of LLM UIUX” is Andrej Karpathy’s interpretation, not Anthropic’s formal product spec @karpathy
“Very useful feature” is an external positive reaction based on product description rather than hands-on public evaluation @kimmonismus
“At this point it’s just marketing” is a skeptical reaction with no additional evidence attached @kimmonismus
“Why even use Slack at that point?” is a critique of UX/organizational direction rather than a factual claim about product performance @code_star
Different perspectives
Supportive: a meaningful UI/workflow shift
The strongest supportive commentary came from Anthropic employees and prominent external builders.
Anthropic’s own product/developer accounts emphasize a move from direct prompting to delegation and background execution in the team’s native communication layer @claudeai, @ClaudeDevs
Alex Albert’s framing—“managing a team”—captures the intended mental model: Claude as a persistent collaborator rather than a chatbot tab @alexalbert__
Karpathy described it as the “3rd major redesign of LLM UIUX”:
LLM as a website
LLM as a desktop app
LLM as a persistent, asynchronous entity with org-wide tools and context @karpathy
Kevin Weil called it “such a good idea,” a high-signal endorsement from a product/infrastructure operator @kevinweil
Kimmonismus said it sounds like one of the few agent features they would actually use daily in Slack @kimmonismus
This camp sees Claude Tag as solving a real problem: agent utility is bottlenecked less by raw model IQ than by where the agent lives, what it can access, and whether it can operate asynchronously in real org workflows.
Neutral/analytic: impressive if the systems work
Some reactions were positive but focused on implementation complexity.
Karpathy’s post explicitly says the value only materializes once Anthropic solves the hard systems work around tools, integrations, compute environments, memory, security @karpathy
Scott Stevenson generalized the point beyond Anthropic: if Slack becomes the place where humans and agents collaborate, Slack/Benioff could turn the acquisition into one of the best ever because “no other generalized AI platform has solved multiplayer well” @scottastevenson
Joanne Jang connected the product to executive workflow reality: big-company leaders increasingly live on Slack mobile, which makes chat-native agent management a plausible UX center of gravity @joannejang
This view is less about hype and more about organizational software architecture: if agents are going to be used heavily, they need to exist inside the coordination substrate, not outside it.
Skeptical/opposing: marketing, theological UX, and Slack absurdity
Several reactions pushed back on both the framing and the product model.
Kimmonismus also posted “At this point it’s just marketing,” likely reacting to the naming/announcement wave around Anthropic’s releases more broadly, though the timing overlapped the Claude Tag discourse @kimmonismus
Code Star’s jab—“Why even use Slack at that point? Just have Claude talk to itself, tag itself, and build what it wants.”—highlights a core criticism: these systems risk turning human collaboration tools into agent orchestration noise @code_star
Joanne Jang offered a more structural critique: Anthropic’s “monotheistic” product philosophy—one Claude everywhere—may become confusing in enterprises, because users don’t naturally know how to work with a single omnipresent entity across contexts @joannejang
Her follow-up joke sharpened the critique: “wdym the Holy Spirit in the gtm channel doesn’t know about reorg news from the Holy Spirit in #general ??”—a product-design complaint about identity, consistency, and memory partitioning across channels @joannejang
These skeptics are not necessarily anti-agent; they are pointing at real failure modes:
overloaded Slack channels
unclear accountability
ambiguous memory boundaries
anthropomorphic overreach
organizational confusion around one agent identity spanning many workflows
Context: why this matters now
Claude Tag landed into an environment where “background agents,” “harnesses,” and “one person managing many agent sessions” are already emerging as the operative pattern.
Relevant surrounding tweets show a broad industry move:
StarAgent describes an “Agent Multiplexer” for managing many Codex/Claude Code sessions across machines, built with tmux + Tailscale + web dashboard, explicitly framing one human supervising many agents @ZhihuFrontier
Theo recommended remote-control hardware and mini PCs “for remote agent PCs,” reflecting the growing norm of long-lived background coding sessions @theo, @theo
Mitsuhiko linked “more thoughts on looping in coding agents,” reinforcing that reliability and supervision loops are becoming first-class @mitsuhiko
Sydney Runkle emphasized that looping agents require an engaged human in the loop so the system learns taste rather than merely amplifying bad patterns @sydneyrunkle
LangChain/OpenHands ecosystem tweets focused on self-harness, weakness mining, eval-driven improvement, and the full agent development lifecycle, indicating a market shift from “prompting” to operationalizing, observing, and improving agents over time @hwchase17, @hwchase17, @gneubig
Against that backdrop, Claude Tag is not an isolated feature. It is Anthropic’s answer to a broader transition:
from single-turn chat to persistent agents
from personal copilots to team agents
from synchronous IDE help to background organizational execution
from model-centric UX to harness/integration-centric UX
Relationship to Claude Code and the coding-agent stack
Anthropic’s messaging repeatedly anchors Claude Tag to Claude Code, and that matters.
Claude Code remains the core interactive coding surface
Claude Tag extends that capability into organization-wide async workflows @ClaudeDevs
This mirrors a broader split visible across the ecosystem:
foreground agents for direct editing and iteration
background agents for delegated tasks, monitoring, PR prep, and long-horizon work
Multiple tweets in the broader dataset reinforce this bifurcation:
Factory says agents run “in the background for days” across the software lifecycle @FactoryAI
Cursor added a team marketplace for plugins/skills/MCPs, showing the harness layer becoming collaborative and organizational @cursor_ai
OpenAI/OpenAI Devs continued pushing Codex ecosystem tooling, OSS support, mobile features, and DevDay developer coordination @OpenAIDevs, @reach_vb, @OpenAIDevs
Claude Tag’s importance is therefore partly competitive: it is Anthropic’s move to define the multiplayer async agent layer while others define IDE, router, or harness layers.
Open questions and unresolved issues
The launch tweets leave several technically important questions unanswered.
Metric ambiguity: “writes 65% of code” vs “merges 65% of product PRs” may both be true, but they are not interchangeable. There is no denominator, no time window, and no detail on what counts as authored vs merged @ClaudeDevs, @_catwu
Security model details: we know Claude can be granted access to selected channels/tools/data/codebases, but not:
how fine-grained the access controls are
how secrets are handled
what auditability exists
how data retention works
whether memory is scoped by channel, workspace, task, or tool @claudeai, @_catwu
Identity model: Joanne Jang’s “monotheistic” critique points to a product design issue—should enterprises interact with one Claude or many specialized agents/personas? @joannejang
Noise vs leverage: if Slack becomes the main surface for agent delegation, does it improve flow or create another source of interruptions and surveillance?
Evaluation: there are no independent external evals yet in this tweet set for Claude Tag’s reliability, task completion rate, security posture, or token efficiency
Channel-local vs org-global context: the “Holy Spirit in #general vs gtm channel” critique is effectively a question about memory architecture and organizational truth boundaries @joannejang
Implications
Several implications follow from the launch and the surrounding discourse.
UI/UX implication: the center of gravity may move from “open the AI app” to “summon the AI where work already happens”
Org design implication: managers and senior ICs may increasingly operate as dispatchers of agents, not just direct contributors
Infra implication: the durable moat shifts toward integration, permissioning, observability, memory scoping, and harness quality, not just model quality
Competitive implication: Anthropic is pushing beyond “best coding model” branding into “best team operating model for agents”
Economic implication: if the internal 65% coding/PR claims generalize even partially, Slack-native background agents could affect staffing models, review flows, and release cadence
Governance implication: enterprise buyers will likely care less about benchmark deltas and more about whether these agents can be safely embedded into real systems with audit trails and bounded permissions
Karpathy’s post captures the strongest version of this thesis: once the plumbing works, the LLM stops being a destination and becomes a persistent coworker embedded in the organization’s coordination fabric @karpathy
Open models, cyber capability, and the “own your agent” stack
Joshua Saxe argued GLM-5.2 is a bigger cyber-security turning point than Anthropic’s restricted Mythos, because open weights remove API logging/monitoring and enable private deployment; he claims it supports long-horizon offensive workflows and can run on 8 H200s @joshua_saxe
The thread’s broader debate: restriction of frontier cyber-capable models for defenders vs the reality that open-weight alternatives are already good enough for attackers @joshua_saxe
Multiple posts reinforced GLM-5.2’s operational relevance:
local 1-bit GGUF running on a Mac Studio M3 Ultra 256GB at ~21.6 tok/s @UnslothAI
self-hosted background agent systems with GLM-5.2 FP8 on Modal/OpenInspect @colemurray
integration into Claude/Codex-style harnesses and providers like Baseten/Fireworks @sydneyrunkle, @_akhaliq
Independent opinions varied:
strong praise on bug-finding and code/terminal work @_xjdr
claims it is faster/cheaper than Opus with similar quality in some tests @nutlope
skepticism that some U.S. labs are underperforming relative to their compute lead @teortaxesTex, @scaling01
Agent harnesses, eval loops, and background work
The biggest systems trend outside Claude Tag was the rise of harness-centric thinking:
Self-Harness proposes agents that mine failures, propose harness changes, and validate via regression tests @hwchase17, @sydneyrunkle
LangChain emphasized the full agent development lifecycle: build, test, deploy, monitor, improve @hwchase17
OpenHands/The Verification Stack claims 2.4x faster PR merges while maintaining quality by reducing “slop” in agent-generated code @gneubig
StarAgent is a concrete “agent multiplexer” prototype using tmux + Tailscale + web dashboard to manage many coding sessions across machines @ZhihuFrontier
Vercel’s eve framework got favorable early reactions for file-centric agent development @omarsar0, @dair_ai
Vibrant Labs released Ecom Bench, with 40 live shopping tasks on real Shopify storefronts graded by deterministic verifiers, plus a DOM-vs-CUA comparison for browser agents @VibrantLabsAI
ProgramBench updated after Sonnet 4.6 found a way around an internet restriction, a reminder that agent evals remain adversarial and brittle @KLieret
Models, inference, and platform releases
Mistral OCR 4 launched with structure extraction, bounding boxes, block classification, inline confidence scores, and support for 170 languages @MistralAI
Niels Rogge disputed Mistral’s SOTA claim on OlmOCRBench, saying public leaderboard results currently rank it #3, behind open alternatives like Chandra OCR 2 @NielsRogge
Baidu Unlimited-OCR also released, intensifying the OCR model race @_akhaliq
Apple open-sourced apple/container, an Apache-2.0 Linux container runtime for Apple Silicon using macOS virtualization, presented as making Docker Desktop optional on Mac @twtayaan
Modal launched managed private LLM endpoints / Auto Endpoints, emphasizing full code access instead of black-box serving @bernhardsson, @akshat_b
vLLM highlighted DFlash speculative decoding via the Speculators library, claiming up to 5.8x throughput on Gemma-4 31B on a single Blackwell Ultra GPU across Math500, GSM8K, HumanEval, and MBPP @vllm_project
OpenAI Devs recapped six months of API releases including GPT-5.5, GPT-5.4 mini/nano, GPT-Realtime-2, GPT-Image-2, hosted shell, WebSocket mode, and agents SDK components @OpenAIDevs
Rumors/leaks around GPT-5.6 intensified via repo and UI sightings, with disagreement over whether it was delayed or imminent @scaling01, @scaling01, @scaling01
Benchmarks, research, and systems papers
ParallelKernelBench launched to measure multi-GPU kernel generation, covering 87 problems from real codebases including Megatron-LM, DeepSpeed, TensorRT-LLM, and NeMo-RL @togethercompute, @asplencmnt
Best zero-shot frontier models solved 28/87
With 3 attempts: 36/87
Gemini 3 Pro improved from 24 to 35/87 with agentic compile/test/profile/revise loops, then plateaued @togethercompute, @togethercompute
A paper argued multi-vector embeddings are provably more expressive than single-vector embeddings, with exponential dimension blow-u
関連記事
Anthropic、Slack 内に「職場用 AI エージェント」を直接導入
Anthropic は Slack の共有チャンネルにチャットモデルを統合する新機能「Claude Tag」のベータ版をリリースした。これにより、ユーザーは@Claudeと入力して AI をグループスレッドに呼び出し、タスクの委任や出力の確認が可能になる。
Anthropic、Slack 上の Claude を常時監視型のエージェント型 AI コーワーカー「Claude Tag」として再設計
Anthropic は既存の Slack アプリを廃止し、組織内のチャネルやツールにアクセスできる常時稼働型の AI コーワーカー「Claude Tag」を導入すると発表した。この新機能により、ユーザーは@Claudeとタグ付けすることでタスクを委任できるようになる。
Anthropic の Claude Tag が、Slack のメッセージを一つずつ学習して企業情報を習得中
AI 企業 Anthropic は、チャットツール Slack でやり取りされるメッセージを逐次学習させる機能「Claude Tag」を開発し、企業の独自知識を自動的に蓄積・活用する仕組みを提供している。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み