Import AI 448: AI R&D; Bytedance’s CUDA-writing agent; on-device satellite AI｜Import AI 448：ByteDanceのCUDA記述エージェント、端末上衛星AI | AIニュース最前線

![image](https://i0.wp.com/jack-clark.net/wp-content/uploads/2026/03/https3A2F2Fsubstack-post-media.s3.amazonaws.com2Fpublic2Fimages2Fd6d17996-2bef-40a4-abe3-be72a0e8a227_258x258-lV3lPz.jpg?resize=150%2C150&ssl=1)AI 研究に関するニュースレター「Import AI」へようこそ。本誌は arXiv と読者からのフィードバックに基づいて運営されています。ご支援いただける場合は、ぜひ購読してください。 今すぐ購読する AI の進展は、評価の高い予測者たちさえも推測できる速度を超えて加速しています： …Ajeya Cotra がタイムラインを更新しました… 「1 月 14 日、私は 2026 年の AI 進展について予測を行いました。ソフトウェアエンジニアリング能力に関する私の予測は、すでに非常に楽観的すぎるように感じられます」と、Ajeya Cotra はブログで述べています。Ajeya は長年にわたり AI の思考者として活動し、強力な AI への到達時期を予測しようとする素晴らしい研究を行ってきた人物です。今回の投稿では、直近の METR（Model Evaluation and Testing Report）の結果により Opus 4.6 が 12 時間の時間的視野（time horizon）を持つことが示されたことから、AI システムが彼女が予想していたよりも速く進化していることを説明しています（Ajeya は 1 月に、2026 年末には約 24 時間になると予測していました）。 「最近の驚異的なペースでさらに 10 ヶ月間の進展があったとしても、9 つの AI エージェントが依然として 24 時間のタスクで半分程度の時間を struggle（苦戦）しているとは、もはや非常にありえない話です」と Ajeya は書きます。「私は、年末までには METR のスイートに含まれるようなソフトウェアタスクにおいて、AI エージェントは 100 時間を超える時間的視野を持つようになるだろうと推測します…そして、複数のフルタイム相当の週にわたる作業について語る段階になると、『時間的視野』という概念そのものが機能しなくなるのではないかと思うのです。」 なぜこれが重要なのか – ソフトウェアの爆発的成長に対してすべての警告灯が黄色に点滅しています：このような投稿や、私がこのニュースレターで取り上げる内容の 70% はすべて、AI システムが極めて急速に、そして驚くほど優れた能力を獲得し、経済を急速に植民地化・拡大していく方向性を示唆しています。 もっと読む：私は AI の能力を過小評価した（再び）（Ajeya Cotra）。 *** AI の研究開発（R&D: Research and Development）を測定したいなら、これら 14 の方法があります： …AI の最も重要な特性に関する指標の生成について… 人工知能において起こりうる最大の出来事は、それが自らを構築し始める時です。この現象はしばしば「再帰的自己改善（recursive self-improvement）」と呼ばれることが多く、多くの人がこれをイベント・ホライズン（事象の地平線）と捉え、その先では未来について推論することがますます困難になると考えています。私たちはこの点に近づいていることをどうやって知るのでしょうか？GovAI とオックスフォード大学の研究者たちは、AI 企業が AI の研究開発自動化（AIRDA: AI R&D Automation）を構築・監督する上でどれほど成功しているかを把握するために測定可能な 14 の明確な指標を提示した論文を発表しました。これは、AI に AI を構築させることであり、再帰的自己改善のための不可欠な前提条件です。 なぜこれが重要なのか：「AIRDA は AI の進歩を加速し、AI の恩恵をもたらす一方で、大量破壊兵器に関連するものを含む破壊的な能力の出現を早めたり、失業などの他の形態の混乱を引き起こしたりする可能性がある」と彼らは記述しています。 14 の指標とは何か？ AI による AI R&D における AI パフォーマンスを測定 AI R&D における AI のパフォーマンスを人間および人間-AI チームと比較して測定する 「オーバーサイト・レッドチーム」を測定する——つまり、自己構築型 AI システムを人間チームが効果的に監督できるかを評価すること AIRDA におけるアライメントのズレを計算する AI R&D タスクにおける効率改善率を算出する スタッフに AI の使用方法とそれが生産性にどう影響するかについて調査する 高リスクな意思決定において AI が使用されているかどうか、およびその頻度を把握する AI 研究者が時間をどこに費やしているかを検討する 企業が AI 開発をいかに監督できているかという効果性をメタ測定する（例：人間の監視下であっても生産環境まで到達してしまうバグや望ましくない動作の発生率など） AI システムがいかに頻繁に、その人間開発者の目標を逸脱・転覆させるかを調査する 研究所における AI 研究者の人員数およびそのパフォーマンスの詳細を追跡する AI 企業が AI R&D プロセス全体で使用する計算資源（compute）の分布と、それがどのように変化するかを検討する 計算資源が AI R&D 支出に占める割合を分析する AI システムが持つ権限を理解し、時間経過とともにその許容度がどう変化するかを把握する AI R&D のガバナンス：上記から導き出される論理的な問いは、「すべて非常に高リスクで重要そうだが、私たちは何ができるのか？」という点だと願っています。私はこのニュースレターで頻繁に述べている通り、AI 測定は AI ガバナンスの前提条件です。したがって、これらの指標を用いて、いくつかの異なるアクターがそれぞれ異なる行動をとるべきです。具体的には： 企業は以下の対応を行うべきです： 安全性研究と能力開発研究の進捗を差分で追跡する：能力開発の研究は、監督（オーバーサイト）研究よりも速いペースで進んでいるか？ AI 研究開発が監督に与える影響を追跡する：自動化によって人間が解放され、AI システムの作業を監督するためのシステム構築により多くの時間を投資できるようになる可能性がある。一方で、AI に駆動された研究開発は、人間にとって本質的に理解しにくいシステムを生み出す可能性があり、AI システムが行う活動の量が膨大になりすぎて、あらゆる監督システムを圧倒してしまう恐れがある。 AI 研究開発の実態を追跡する：AI 研究開発に代わる指標（プロキシ）として機能する測定基準を作成できる。例えば、多くのラボでは現在、AI システムが AI カーネルを構築したり、AI モデルを訓練したりする能力の程度を試験している。また、自組織において実際にどの程度の AI 研究開発自動化が行われているかをテストすることも可能である。もう一つの道は、人間のスタッフに対する定性的・定量的調査を行い、彼らの役割がどのように変化しているか、そして AI がいかにしてより高いリスクを伴う意思決定に用いられているかを理解することだ。 政府は以下のべきである： 機密報告のためのシステムを開発する。これは業界全体の集計データという形態をとる可能性がある：企業がこのようなデータを測定し始めた時点で、政府はそのデータへのアクセス権を確保し、AI の進展の全体像を理解すべきである。 第三者は以下のべきである： 公開情報を用いて指標を推定する：AI 研究開発に関連する可能性のある事項（例えば、各企業が保有する計算資源の量など）について、公開報告書などを参照して推計を行うこと。これについては Epoch および SemiAnalysis が非常に優れた実績を持っている。 ツール作成と調査設計：企業が AI 研究開発に関するより多くのテレメトリデータを生成するために使用できるツールの構築、および企業内の関係者に対する調査の実施を通じて、さらなる洞察の収集を行う。 なぜこれが重要なのか：「ある主体が AI 研究開発プロセスを監督するには、(1) そのプロセスを理解し、(2) 望ましい成果（例えば、AI 生成出力のエラーレビューなど）を生み出すために、そのプロセスに対して十分な情報に基づいた制御を行使する必要がある」と彼らは記述している。したがって、人類として再帰的自己改善に関する『警告射撃』を持ち、それを統治する希望を持つためには、これらの側面を測定可能でなければならない。 さらに読む：Measuring AI R&D Automation (arXiv)。 *** インドの研究者がエッジコンピューティングを活用して市全域のカメラネットワークのプロトタイプ開発に着手： …YOLO、SAM3、および NVIDIA Jetson チップを用いた交通監視… ベンガルールにあるインド科学研究所の研究者たちは、同市内を流れる交通と車両の種類を知的に監視するためのソフトウェアおよびハードウェアシステムを開発した。いわゆる AI 駆動型インテリジェント交通システム（AIITS）は、AI の活用を通じて都市の交通分析担当者が利用可能な知見の量を増加させることを支援する。 翻訳全文 AIITS の仕組み：このプロジェクトの目標は、「厳格なレイテンシとリソース制約下で、数千台の都市カメラからのリアルタイム分析を可能にすること」です。 これを実現するために、彼らは多数の軽量 GPU（Jetson エッジアクセラレータ）を都市中に分散配置し、交通カメラと同一場所に設置します。これにより、交通カメラはネットワークのエッジ側でインテリジェントな処理を行えるようになり、極めて帯域幅を消費するデータをすべて中央ハブへ送信して処理する必要がなくなります。代わりに、カメラと Jetson は分析および Jetson ベースの機械学習モデルの再校正のために、洞察をハブへ共有します。 ソフトウェアは以下のように動作します：カメラからのビデオストリームが入力されると、「Segment Anything (SAM3)」モデルが動画フレーム内のすべての対象物をセグメント化し、その後「YOLO26」モデルがそれらを分析してラベルとバウンディングボックスを付与します。「各ストリームには BoT-SORT 多物体追跡が統合されており、連続するフレーム間で検出された車両に一貫した ID を割り当てます。」 この処理が完了すると、得られたインテリジェンスはリモート GPU サーバーへ送信され、そこで以下の 2 つのことが行われます： 1) 結果データを取得し、これを用いて交通ホットスポットの一種の天気図を作成するとともに、将来の交通状況に関する予測を行います。 2) フェデレーテッドラーニング（連合学習）を実行します。新しい車両クラスを検出し SAM3 でラベル付けした場合、詳細情報を更新してエッジ側へブロードキャストします。「各 Jetson は、現在のグローバル重みで初期化された YOLO ベースの検出器に対して、ローカルでのファインチューニングを行います。」 プロトタイプは機能します：このシステムはベンガルールのある近隣地区で 100 カメラをシミュレーションして構築されたものですが、十分に良好に動作するため、著者らはライブデモンストレーションのためにこれを 1,000 ストリームまで拡張する計画を立てています。（この実験では、「数百の同時実行されるリアルタイムストリーミングプロトコル（RTSP）ビデオストリームを用いて大規模な都市カメラネットワークを模倣する分散テストベッド」を構築しました。各ストリームは、ラズベリーパイの異種クラスタ上でホストされています。 「重負荷となる動画解析をネットワークの周辺部にローカライズすることで、このシステムは集中型の帯域幅ボトルネックを回避し、持続可能で都市規模の交通センシングを実現します」と彼らは記述しています。 なぜこれが重要なのか – AI による「生きている都市」へ：このような論文は、既存のセンサーに等しく配分された環境知能によって都市が生き生きとよみがえる世界を予見するものです。カメラは受動的な監視者から能動的な分類器へと変化し、マイクは銃声だけでなくより広範な音声を知的に聞き取るようになり、道路センサーは交通パターンを局所的にモデル化します。この種の知能は、大規模な監視アーキテクチャの構築と、都市運営の効率性向上の両方をもたらす可能性があります – AI に関わる多くの事柄と同様に、これはすべてバランスの問題であり、その結果として生じる能力が権威主義と民主主義のどちらに位置するかを決定する周囲の規範や法律という茂みに制約されます。 さらに読む：都市規模カメラネットワーク向けエッジクラウドファブリクスにおけるリアルタイム交通解析のスケーリング（arXiv）。 *** 翻訳全文 極域モニタリングのための衛星におけるオンデバイス AI の実行支援: …フロンティアモデルは重要ですが、エッジコンピューティング用の小型・超小型デバイスも同様に重要です… ドイツ人工知能研究センターの研究者たちは、合成開口レーダー（SAR）データから海氷の厚さを推定するための非常に小さなビジョンモデル「TinyIceNet」を開発しました。TinyIceNet は、電力供給が極めて限られており帯域幅が高価な衛星やロボットなどのデバイスに実際に展開可能な可能性を有する、非常に軽量なビジョンモデルを作成する方法を実証する概念実装です。 TinyIceNet とは何か？このモデルは極地やその他の寒冷地域の合成開口レーダー（SAR）データを取得し、そのデータ内の氷の厚さと成熟度を特徴づけることを目的とした小型ビジョンモデルです。ここで目指しているのは、オンデバイスで処理を行うことで非常に効率的になることです。「膨大な量の生画像をダウンリンクするのではなく、衛星はニアリアルタイムで SOD 製品を生成できる」という考え方です。 どのように構築されたか：TinyIceNet は、AI4Arctic データセット上で訓練された簡略化された U-net 構造のビジョンモデルです。このデータセットには約 533 の netCDF ファイルが含まれており、それぞれに SAR（合成開口レーダー）画像と、海氷の種類および厚さを示す地図が関連付けられています。著者らは、Xilinx チップ上で比較的小さな計算環境に収まるようモデルを慎重に設計しました。 具体的には、「Quad-core ARM Cortex-A53 プロセッサと FPGA ファブリックを組み合わせた ZCU9EG SoC を統合した AMD Xilinx ZCU102 評価ボード」を使用し、High-Level Synthesis（HLS）および DeepEdgeSoC フレームワークを活用しています。DeepEdgeSoC ツールチェーンを用いてモデルの効率をさらに向上させており、このソフトウェアは「コンパイル時に C++ テンプレートパラメータを使用して特別化可能な、モジュール型 C++ ビルディングブロック（例：畳み込み演算、プーリング、活性化関数、特徴マップバッファ）のライブラリを提供します」。 TinyIceNet は、PyTorch 2.4 と CUDA 12.5 のサポートを利用し、単一の GeForce RTX 4090 GPU で 500 イテレーションにわたって訓練されました。 結果：著者らは、このモデルを 3 つのハードウェアプラットフォームでテストしました。 RTX 4090: 「764.8 fps という最高スループットを提供し、多数の CUDA コアと高いメモリ帯域幅を活かしています。しかし、この性能はシーンあたり 228.7 mJ という相対的に高いエネルギーコストを伴うため、衛星のような電力制約のある環境には適していません。」 Jetson AGX Xavier: 「47.9 fps を達成しますが、1218.5 mJ と最も高いエネルギー消費を示します。」 Xilinx ZCU102 FPGA："7 fps という低いスループットを達成していますが、非常に競争力のあるエネルギープロファイルを提供し、シーンあたりわずか 113.6 mJ の消費に抑えています。フレームレートが低いにもかかわらず、この省エネ性は電力供給が極めて制限されているオンボード衛星処理において、FPGA 実装を魅力的なものにしています"。 なぜこれが重要なのか – 将来、AI システムはこれを自動的に実行するようになる：この研究の驚くべき点は、現代の強力な AI システムにとってこれは些細なこと（著者の方々に失礼はないが）に見えることです。必要なことはすべて、タスクを特定すること（コンピュータビジョンモデルを小さな計算エンベロープに収めること）、既存のアーキテクチャを実行してハードウェアプラットフォーム向けに調整し、データセットでトレーニングした後、いくつかのテストを実行することだけです。 数年後には、AI エージェントが自らこの作業を行うようになるかもしれません。必要な計算リソースを調達し、任意の目的のために任意の計算プラットフォームへ小規模な AI システムを開発・配布するのです。これが私が考える、AI に起因する経済活動の急激な指数関数的ブームをもたらす主要な方法の一つです。AI システムは十分に賢くなり、カスタム"エッジコンピューティング"AI システムを作成することで、物理世界に関する知識や相互作用能力を劇的に向上させるようになります。これにより、より優れたセンサデータとアクチュエータが提供されることになります。 さらに読む：TinyIceNet: Low-Power SAR Sea Ice Segmentation for On-Board FPGA Inference (arXiv)。 *** ByteDance は Seed1.6 モデルを微調整し、CUDA を記述するエージェントへと進化させました： …AI を用いて AI を微調整し、将来の AI システムを訓練するためのコードを書かせる… ByteDance と清華大学の研究者たちは、GPU プログラミングコードの記述に特化した微調整済み AI モデル「CUDA Agent」を開発しました。この研究は、人々が AI 開発の中核となる側面のスピードアップのために AI を活用する傾向がさらに強まっていることの新たな兆候です。また、主要な中国の研究機関と大学が、国産チップではなく米国製チップ（NVIDIA H20）を継続して使用している点でも、やや注目すべき事実となっています。 CUDA Agent とは何か：CUDA Agent は、Seed 1.6 LLM を微調整したものであり、230B の総パラメータのうち 23B がアクティブに動作する MOE（Mixture of Experts）モデルです。微調整作業は、128 基の NVIDIA H20 GPU で構成されるクラスター上で行われました。CUDA Agent は、基礎となる PyTorch の「torch」および「transformers」ソフトウェアライブラリから精製されたデータセットを用いて微調整することで、GPU コードの記述に特化して開発されました。「フィルタリングされた合成トレーニングデータセットには 6,000 サンプルが含まれており、CUDA エージェントを訓練するための厳選された演算子レベルのデータセットである CUDA-Agent-Ops-6K を形成しています」と著者らは記述しています。 モデルをエージェントに変換する：過去1年ほど、研究者たちは、特定のタスクに対して LLM のパフォーマンスを向上させるには、専門的なツールと指示を与えて時間経過とともに操作させることで可能であることを繰り返し示してきた。これは本質的に AI エージェントである。 ここで紹介される CUDA エージェントは、OpenHands フレームワークを採用してエージェント化された微調整済みモデルであり、BashTool、GlobTool、MultiEditTool、TodoWriteTool などのツールを与えられている。このエージェントは以下の4段階のループで動作する： 提供された profile.py スクリプトを使用して、与えられた CUDA コードのネイティブ PyTorch 実装のパフォーマンスを分析する model_new.py でモデルを書き換えることでカスタム CUDA オペレーターを実装する 提供された GPU サンドボックス環境で最適化されたモデルをコンパイルして評価する torch.compile ベースラインに対して5%の速度向上が達成されるまで、最適化プロセスを繰り返す 結果：生成されたエージェントは CUDA カーネル開発において非常に優れており、「CUDA Agent は 128k トークンのコンテキスト長にスケールし、最大 200 の対話ターンをサポートして最先端のパフォーマンスを達成した」と著者らは述べています。彼らのファインチューニングにより、Seed1.6 のベースライン性能である 74% から劇的に向上し、「KernelBench の Level-1、Level-2、Level-3 スプリットにおいて torch.compile でそれぞれ 100%、100%、92% を達成し、Claude Opus 4.5 や Gemini 3 Pro といった高度な独自モデルを約 40% 上回る性能を示しました（特に Level-3 スプリットで顕著です）。 しかし、他のベースモデルとの比較は異なる物語を語ります：Claude Opus 4.5 と Gemini 3 Pro のベースモデルはそれぞれ 95.2% と 91.2% を達成しており、これらがファインチューニングされればさらに性能が向上する可能性を示唆しています。つまり、これらのモデルはもともとより強力なベースラインから出発しているのです。 なぜこれが重要なのか – AI が AI を構築する：これらの結果は、現代の AI システムが自分自身を開発・展開するために必要なタスクにおいて、いかにして急速に能力を向上させているかを示しています。これは、新しい AI モデルが次世代モデルのトレーニングに用いるインフラストラクチャの効率化に利用されるという、複合的な加速の始まりにあることを示唆しています。 さらに読む：CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation (arXiv)。 *** テック・テイルズ： タンポポ空 [2031 年、北欧] 私たちは砂の城を作り、遠くでは青い空に黄色と赤の爆発が点在し、数秒後には爆発の崩れる音が届いてきた。もうその光景に慣れきっていたので、私たちは顔を上げもせずじっと見つめていた。 公園から戻る道では、ドローンが都市の周りを補充するために飛び交い、空気が唸りを上げていた。彼らは鳥のように多様な姿で、スズメのように素早く通り過ぎるものもあれば、大型のものは重々しく空中を移動していた。種類はあまりにも多く、毎日数千体が撃墜されるサッカーボールサイズの迎撃機、通信と AI リレーとして機能するピザ箱型のドローン、そして甚大な被害を受けた地域に急速に再人口化をもたらすことができるオートバイサイズの母艦などがあった。 戦争はすでに5年間続いていた。私たちの都市も世界中の多くの都市と同様、人類の核であり、その周囲を何千という機械が旋回し、敵との血なまぐさいダンスのようにエネルギーと質量を交換しながら守っていたのだ。 その夜、都市は統計を通じて自らの物語を語った：撃墜された迎撃機3410機。これは緑色の一日だった——成功率100%で、何も突破されなかった。補充率は4000機で上昇中。さらに、我々の軍が敵地深くまで侵攻し、複数のドローン工場を破壊したという有望な報告もあった。 寝室以外のすべての部屋に遮光カーテンを閉めました。子供たちは眠り、妻は私の横で寝入った中、私は暗闇を見つめていました。時折、遠くでドローンが爆発する光が顔を照らし、その衝撃波が窓に届くと部屋全体が振動してざわめきました。 しかし翌日目が覚めたとき、空気の中に何かが違っていました：静寂です。そして私のスマホは動きませんでした。私たちはカーテンを閉めて外を見ましたが、空は青く、完璧に晴れ渡っていました。雲もドローンも一つとしてありませんでした。妻は外を凝視し、あごを固く引き締め、子供たちを強く抱き寄せました。 「パパ、機械はどこ？」と一番小さい子が言いました。 「そうだねパパ、どうしたの？」と年上の子が尋ねました。 「わからないよ」と私は答えました。「カーテンを閉めて。今日はキャンプに行くんだ！」 そして私は妻と子供たちをアパートに残し、テレビの前にクッションを置き、ゲーム機をつけて、お菓子を山ほど用意しました。子供たちは興奮し、妻もその芝居に付き合いました。 「何が起きているか調べてみるよ」と私はそっと彼女に囁きました。「遠くには行かないし、長くはいないから。」 外には私と同じ考えを持つ人たちが数人いました。私たち誰も詳しくは知りませんでした。電子通信システムはすべて機能していませんでした。ドローンを指揮しているのは誰なのかさえわかりません。私たち誰も知りませんでした。彼らは主に AI を通じて動いています。意思決定の多くは分散型で、

Import AI 448：ByteDanceのCUDA記述エージェント、端末上衛星AI

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト