Import AI 448:ByteDanceのCUDA記述エージェント、端末上衛星AI
Ajeya CotraによるAI能力予測の上方修正と、Oxford大学およびGovAIが提案するAI自律的R&D(AIRDA)の14指標は、AI開発速度が予測を上回り、自己改善フェーズへ移行しつつあることを示唆している。
キーポイント
AI能力予測の上方修正
Ajeya Cotraは、METRの最新結果(Opus 4.6のタイムホライゾン12時間)を踏まえ、年末までにAIエージェントがソフトウェアタスクで100時間以上のタイムホライゾンを持つと予測し、従来の見込みを大幅に上方修正した。
AIRDAの14指標の提案
Oxford大学とGovAIは、AIがAIを構築する「自律的R&D(AIRDA)」の進展度を測る14の指標を提示し、再帰的自己改善(RSI)への接近度を評価する枠組みを示した。
急速な発展と社会的影響
記事は、AIがソフトウェア分野で急速に進歩し経済を席巻しつつある現状を指摘し、AIRDAの進展が利益の早期実現と並行して、破壊的技術や失業などのリスクを加速させる可能性を示唆している。
AI測定はガバナンの前提条件
AI研究開発の進捗を定量的に測定することは、効果的なガバナンスを実施するための必須条件である。
企業・政府・第三者の役割分担
企業は安全と能力研究の進捗差を追跡し、政府は機密報告システムを通じてデータにアクセスし、第三者は公開情報から指標を推定する役割を果たすべきである。
オーバーステイトの複雑化への対応
AIによるR&D自動化は人間の監督を容易にする一方で、システムの理解困難さや活動量の増大により監督を困難にする可能性があり、その実態を追跡する必要がある。
AI R&Dプロセスの可視化と監視ツールの必要性
再帰的自己改善やAIガバナンスを実現するためには、AI研究開発プロセスを理解し、生成された出力の誤りをレビューできる「監視」体制と測定可能な指標が不可欠である。
影響分析・編集コメントを表示
影響分析
この記事は、現在のAI開発ペースが専門家の予測をすでに上回っており、ソフトウェアエンジニアリングなどの実務領域でのAIの役割が劇的に拡大していることを示しています。特に、AIが自身を改善するプロセス(AIRDA)の評価指標が提案されたことは、次世代のAI安全监管と技術評価における重要なマイルストーンであり、業界全体が「自律的開発」の段階に近づいていることを認識する必要があることを示唆しています。
編集コメント
Ajeya Cotraによる予測上方修正は、単なる性能向上ではなく「タイムホライゾンの崩壊」を示唆しており、AIエージェントが人間のリソース制約を超えつつあることを意味します。同時にAIRDA指標の提示は、この加速する開発を安全に管理するための重要なフレームワークを提供しています。
imageAI 研究に関するニュースレター「Import AI」へようこそ。本誌は arXiv と読者からのフィードバックに基づいて運営されています。ご支援いただける場合は、ぜひ購読してください。
今すぐ購読する
AI の進展は、評価の高い予測者たちさえも推測できる速度を超えて加速しています:
…Ajeya Cotra がタイムラインを更新しました…
「1 月 14 日、私は 2026 年の AI 進展について予測を行いました。ソフトウェアエンジニアリング能力に関する私の予測は、すでに非常に楽観的すぎるように感じられます」と、Ajeya Cotra はブログで述べています。Ajeya は長年にわたり AI の思考者として活動し、強力な AI への到達時期を予測しようとする素晴らしい研究を行ってきた人物です。今回の投稿では、直近の METR(Model Evaluation and Testing Report)の結果により Opus 4.6 が 12 時間の時間的視野(time horizon)を持つことが示されたことから、AI システムが彼女が予想していたよりも速く進化していることを説明しています(Ajeya は 1 月に、2026 年末には約 24 時間になると予測していました)。
「最近の驚異的なペースでさらに 10 ヶ月間の進展があったとしても、9 つの AI エージェントが依然として 24 時間のタスクで半分程度の時間を struggle(苦戦)しているとは、もはや非常にありえない話です」と Ajeya は書きます。「私は、年末までには METR のスイートに含まれるようなソフトウェアタスクにおいて、AI エージェントは 100 時間を超える時間的視野を持つようになるだろうと推測します…そして、複数のフルタイム相当の週にわたる作業について語る段階になると、『時間的視野』という概念そのものが機能しなくなるのではないかと思うのです。」
なぜこれが重要なのか – ソフトウェアの爆発的成長に対してすべての警告灯が黄色に点滅しています:このような投稿や、私がこのニュースレターで取り上げる内容の 70% はすべて、AI システムが極めて急速に、そして驚くほど優れた能力を獲得し、経済を急速に植民地化・拡大していく方向性を示唆しています。
もっと読む:私は AI の能力を過小評価した(再び)(Ajeya Cotra)。
AI の研究開発(R&D: Research and Development)を測定したいなら、これら 14 の方法があります:
…AI の最も重要な特性に関する指標の生成について…
人工知能において起こりうる最大の出来事は、それが自らを構築し始める時です。この現象はしばしば「再帰的自己改善(recursive self-improvement)」と呼ばれることが多く、多くの人がこれをイベント・ホライズン(事象の地平線)と捉え、その先では未来について推論することがますます困難になると考えています。私たちはこの点に近づいていることをどうやって知るのでしょうか?GovAI とオックスフォード大学の研究者たちは、AI 企業が AI の研究開発自動化(AIRDA: AI R&D Automation)を構築・監督する上でどれほど成功しているかを把握するために測定可能な 14 の明確な指標を提示した論文を発表しました。これは、AI に AI を構築させることであり、再帰的自己改善のための不可欠な前提条件です。
なぜこれが重要なのか:「AIRDA は AI の進歩を加速し、AI の恩恵をもたらす一方で、大量破壊兵器に関連するものを含む破壊的な能力の出現を早めたり、失業などの他の形態の混乱を引き起こしたりする可能性がある」と彼らは記述しています。
14 の指標とは何か?
AI による AI R&D における AI パフォーマンスを測定
AI R&D における AI のパフォーマンスを人間および人間-AI チームと比較して測定する
「オーバーサイト・レッドチーム」を測定する——つまり、自己構築型 AI システムを人間チームが効果的に監督できるかを評価すること
AIRDA におけるアライメントのズレを計算する
AI R&D タスクにおける効率改善率を算出する
スタッフに AI の使用方法とそれが生産性にどう影響するかについて調査する
高リスクな意思決定において AI が使用されているかどうか、およびその頻度を把握する
AI 研究者が時間をどこに費やしているかを検討する
企業が AI 開発をいかに監督できているかという効果性をメタ測定する(例:人間の監視下であっても生産環境まで到達してしまうバグや望ましくない動作の発生率など)
AI システムがいかに頻繁に、その人間開発者の目標を逸脱・転覆させるかを調査する
研究所における AI 研究者の人員数およびそのパフォーマンスの詳細を追跡する
AI 企業が AI R&D プロセス全体で使用する計算資源(compute)の分布と、それがどのように変化するかを検討する
計算資源が AI R&D 支出に占める割合を分析する
AI システムが持つ権限を理解し、時間経過とともにその許容度がどう変化するかを把握する
AI R&D のガバナンス:上記から導き出される論理的な問いは、「すべて非常に高リスクで重要そうだが、私たちは何ができるのか?」という点だと願っています。私はこのニュースレターで頻繁に述べている通り、AI 測定は AI ガバナンスの前提条件です。したがって、これらの指標を用いて、いくつかの異なるアクターがそれぞれ異なる行動をとるべきです。具体的には:
企業は以下の対応を行うべきです:
安全性研究と能力開発研究の進捗を差分で追跡する:能力開発の研究は、監督(オーバーサイト)研究よりも速いペースで進んでいるか?
AI 研究開発が監督に与える影響を追跡する:自動化によって人間が解放され、AI システムの作業を監督するためのシステム構築により多くの時間を投資できるようになる可能性がある。一方で、AI に駆動された研究開発は、人間にとって本質的に理解しにくいシステムを生み出す可能性があり、AI システムが行う活動の量が膨大になりすぎて、あらゆる監督システムを圧倒してしまう恐れがある。
AI 研究開発の実態を追跡する:AI 研究開発に代わる指標(プロキシ)として機能する測定基準を作成できる。例えば、多くのラボでは現在、AI システムが AI カーネルを構築したり、AI モデルを訓練したりする能力の程度を試験している。また、自組織において実際にどの程度の AI 研究開発自動化が行われているかをテストすることも可能である。もう一つの道は、人間のスタッフに対する定性的・定量的調査を行い、彼らの役割がどのように変化しているか、そして AI がいかにしてより高いリスクを伴う意思決定に用いられているかを理解することだ。
政府は以下のべきである:
機密報告のためのシステムを開発する。これは業界全体の集計データという形態をとる可能性がある:企業がこのようなデータを測定し始めた時点で、政府はそのデータへのアクセス権を確保し、AI の進展の全体像を理解すべきである。
第三者は以下のべきである:
公開情報を用いて指標を推定する:AI 研究開発に関連する可能性のある事項(例えば、各企業が保有する計算資源の量など)について、公開報告書などを参照して推計を行うこと。これについては Epoch および SemiAnalysis が非常に優れた実績を持っている。
ツール作成と調査設計:企業が AI 研究開発に関するより多くのテレメトリデータを生成するために使用できるツールの構築、および企業内の関係者に対する調査の実施を通じて、さらなる洞察の収集を行う。
なぜこれが重要なのか:「ある主体が AI 研究開発プロセスを監督するには、(1) そのプロセスを理解し、(2) 望ましい成果(例えば、AI 生成出力のエラーレビューなど)を生み出すために、そのプロセスに対して十分な情報に基づいた制御を行使する必要がある」と彼らは記述している。したがって、人類として再帰的自己改善に関する『警告射撃』を持ち、それを統治する希望を持つためには、これらの側面を測定可能でなければならない。
さらに読む:Measuring AI R&D Automation (arXiv)。
インドの研究者がエッジコンピューティングを活用して市全域のカメラネットワークのプロトタイプ開発に着手:
…YOLO、SAM3、および NVIDIA Jetson チップを用いた交通監視…
ベンガルールにあるインド科学研究所の研究者たちは、同市内を流れる交通と車両の種類を知的に監視するためのソフトウェアおよびハードウェアシステムを開発した。いわゆる AI 駆動型インテリジェント交通システム(AIITS)は、AI の活用を通じて都市の交通分析担当者が利用可能な知見の量を増加させることを支援する。
必ず JSON 形式で返してください。translation フィールドのみ。他のフィールド (technical_terms 等) は一切追加しないこと — 余計なフィールドを書こうとして本文翻訳がトークン上限で打ち切られる事故を防ぐため:
{"translation": "翻訳全文"}
AIITS の仕組み:このプロジェクトの目標は、「厳格なレイテンシとリソース制約下で、数千台の都市カメラからのリアルタイム分析を可能にすること」です。
これを実現するために、彼らは多数の軽量 GPU(Jetson エッジアクセラレータ)を都市中に分散配置し、交通カメラと同一場所に設置します。これにより、交通カメラはネットワークのエッジ側でインテリジェントな処理を行えるようになり、極めて帯域幅を消費するデータをすべて中央ハブへ送信して処理する必要がなくなります。代わりに、カメラと Jetson は分析および Jetson ベースの機械学習モデルの再校正のために、洞察をハブへ共有します。
ソフトウェアは以下のように動作します:カメラからのビデオストリームが入力されると、「Segment Anything (SAM3)」モデルが動画フレーム内のすべての対象物をセグメント化し、その後「YOLO26」モデルがそれらを分析してラベルとバウンディングボックスを付与します。「各ストリームには BoT-SORT 多物体追跡が統合されており、連続するフレーム間で検出された車両に一貫した ID を割り当てます。」
この処理が完了すると、得られたインテリジェンスはリモート GPU サーバーへ送信され、そこで以下の 2 つのことが行われます:
1) 結果データを取得し、これを用いて交通ホットスポットの一種の天気図を作成するとともに、将来の交通状況に関する予測を行います。
2) フェデレーテッドラーニング(連合学習)を実行します。新しい車両クラスを検出し SAM3 でラベル付けした場合、詳細情報を更新してエッジ側へブロードキャストします。「各 Jetson は、現在のグローバル重みで初期化された YOLO ベースの検出器に対して、ローカルでのファインチューニングを行います。」
プロトタイプは機能します:このシステムはベンガルールのある近隣地区で 100 カメラをシミュレーションして構築されたものですが、十分に良好に動作するため、著者らはライブデモンストレーションのためにこれを 1,000 ストリームまで拡張する計画を立てています。(この実験では、「数百の同時実行されるリアルタイムストリーミングプロトコル(RTSP)ビデオストリームを用いて大規模な都市カメラネットワークを模倣する分散テストベッド」を構築しました。各ストリームは、ラズベリーパイの異種クラスタ上でホストされています。
「重負荷となる動画解析をネットワークの周辺部にローカライズすることで、このシステムは集中型の帯域幅ボトルネックを回避し、持続可能で都市規模の交通センシングを実現します」と彼らは記述しています。
なぜこれが重要なのか – AI による「生きている都市」へ:このような論文は、既存のセンサーに等しく配分された環境知能によって都市が生き生きとよみがえる世界を予見するものです。カメラは受動的な監視者から能動的な分類器へと変化し、マイクは銃声だけでなくより広範な音声を知的に聞き取るようになり、道路センサーは交通パターンを局所的にモデル化します。この種の知能は、大規模な監視アーキテクチャの構築と、都市運営の効率性向上の両方をもたらす可能性があります – AI に関わる多くの事柄と同様に、これはすべてバランスの問題であり、その結果として生じる能力が権威主義と民主主義のどちらに位置するかを決定する周囲の規範や法律という茂みに制約されます。
さらに読む:都市規模カメラネットワーク向けエッジクラウドファブリクスにおけるリアルタイム交通解析のスケーリング(arXiv)。
必ず JSON 形式で返してください。translation フィールドのみ。他のフィールド (technical_terms 等) は一切追加しないこと — 余計なフィールドを書こうとして本文翻訳がトークン上限で打ち切られる事故を防ぐため:
{"translation": "翻訳全文"}
極域モニタリングのための衛星におけるオンデバイス AI の実行支援:
…フロンティアモデルは重要ですが、エッジコンピューティング用の小型・超小型デバイスも同様に重要です…
ドイツ人工知能研究センターの研究者たちは、合成開口レーダー(SAR)データから海氷の厚さを推定するための非常に小さなビジョンモデル「TinyIceNet」を開発しました。TinyIceNet は、電力供給が極めて限られており帯域幅が高価な衛星やロボットなどのデバイスに実際に展開可能な可能性を有する、非常に軽量なビジョンモデルを作成する方法を実証する概念実装です。
TinyIceNet とは何か?このモデルは極地やその他の寒冷地域の合成開口レーダー(SAR)データを取得し、そのデータ内の氷の厚さと成熟度を特徴づけることを目的とした小型ビジョンモデルです。ここで目指しているのは、オンデバイスで処理を行うことで非常に効率的になることです。「膨大な量の生画像をダウンリンクするのではなく、衛星はニアリアルタイムで SOD 製品を生成できる」という考え方です。
どのように構築されたか:TinyIceNet は、AI4Arctic データセット上で訓練された簡略化された U-net 構造のビジョンモデルです。このデータセットには約 533 の netCDF ファイルが含まれており、それぞれに SAR(合成開口レーダー)画像と、海氷の種類および厚さを示す地図が関連付けられています。著者らは、Xilinx チップ上で比較的小さな計算環境に収まるようモデルを慎重に設計しました。
具体的には、「Quad-core ARM Cortex-A53 プロセッサと FPGA ファブリックを組み合わせた ZCU9EG SoC を統合した AMD Xilinx ZCU102 評価ボード」を使用し、High-Level Synthesis(HLS)および DeepEdgeSoC フレームワークを活用しています。DeepEdgeSoC ツールチェーンを用いてモデルの効率をさらに向上させており、このソフトウェアは「コンパイル時に C++ テンプレートパラメータを使用して特別化可能な、モジュール型 C++ ビルディングブロック(例:畳み込み演算、プーリング、活性化関数、特徴マップバッファ)のライブラリを提供します」。
TinyIceNet は、PyTorch 2.4 と CUDA 12.5 のサポートを利用し、単一の GeForce RTX 4090 GPU で 500 イテレーションにわたって訓練されました。
結果:著者らは、このモデルを 3 つのハードウェアプラットフォームでテストしました。
RTX 4090: 「764.8 fps という最高スループットを提供し、多数の CUDA コアと高いメモリ帯域幅を活かしています。しかし、この性能はシーンあたり 228.7 mJ という相対的に高いエネルギーコストを伴うため、衛星のような電力制約のある環境には適していません。」
Jetson AGX Xavier: 「47.9 fps を達成しますが、1218.5 mJ と最も高いエネルギー消費を示します。」
Xilinx ZCU102 FPGA:"7 fps という低いスループットを達成していますが、非常に競争力のあるエネルギープロファイルを提供し、シーンあたりわずか 113.6 mJ の消費に抑えています。フレームレートが低いにもかかわらず、この省エネ性は電力供給が極めて制限されているオンボード衛星処理において、FPGA 実装を魅力的なものにしています"。
なぜこれが重要なのか – 将来、AI システムはこれを自動的に実行するようになる:この研究の驚くべき点は、現代の強力な AI システムにとってこれは些細なこと(著者の方々に失礼はないが)に見えることです。必要なことはすべて、タスクを特定すること(コンピュータビジョンモデルを小さな計算エンベロープに収めること)、既存のアーキテクチャを実行してハードウェアプラットフォーム向けに調整し、データセットでトレーニングした後、いくつかのテストを実行することだけです。
数年後には、AI エージェントが自らこの作業を行うようになるかもしれません。必要な計算リソースを調達し、任意の目的のために任意の計算プラットフォームへ小規模な AI システムを開発・配布するのです。これが私が考える、AI に起因する経済活動の急激な指数関数的ブームをもたらす主要な方法の一つです。AI システムは十分に賢くなり、カスタム"エッジコンピューティング"AI システムを作成することで、物理世界に関する知識や相互作用能力を劇的に向上させるようになります。これにより、より優れたセンサデータとアクチュエータが提供されることになります。
さらに読む:TinyIceNet: Low-Power SAR Sea Ice Segmentation for On-Board FPGA Inference (arXiv)。
ByteDance は Seed1.6 モデルを微調整し、CUDA を記述するエージェントへと進化させました:
…AI を用いて AI を微調整し、将来の AI システムを訓練するためのコードを書かせる…
ByteDance と清華大学の研究者たちは、GPU プログラミングコードの記述に特化した微調整済み AI モデル「CUDA Agent」を開発しました。この研究は、人々が AI 開発の中核となる側面のスピードアップのために AI を活用する傾向がさらに強まっていることの新たな兆候です。また、主要な中国の研究機関と大学が、国産チップではなく米国製チップ(NVIDIA H20)を継続して使用している点でも、やや注目すべき事実となっています。
CUDA Agent とは何か:CUDA Agent は、Seed 1.6 LLM を微調整したものであり、230B の総パラメータのうち 23B がアクティブに動作する MOE(Mixture of Experts)モデルです。微調整作業は、128 基の NVIDIA H20 GPU で構成されるクラスター上で行われました。CUDA Agent は、基礎となる PyTorch の「torch」および「transformers」ソフトウェアライブラリから精製されたデータセットを用いて微調整することで、GPU コードの記述に特化して開発されました。「フィルタリングされた合成トレーニングデータセットには 6,000 サンプルが含まれており、CUDA エージェントを訓練するための厳選された演算子レベルのデータセットである CUDA-Agent-Ops-6K を形成しています」と著者らは記述しています。
モデルをエージェントに変換する:過去1年ほど、研究者たちは、特定のタスクに対して LLM のパフォーマンスを向上させるには、専門的なツールと指示を与えて時間経過とともに操作させることで可能であることを繰り返し示してきた。これは本質的に AI エージェントである。
ここで紹介される CUDA エージェントは、OpenHands フレームワークを採用してエージェント化された微調整済みモデルであり、BashTool、GlobTool、MultiEditTool、TodoWriteTool などのツールを与えられている。このエージェントは以下の4段階のループで動作する:
提供された profile.py スクリプトを使用して、与えられた CUDA コードのネイティブ PyTorch 実装のパフォーマンスを分析する
model_new.py でモデルを書き換えることでカスタム CUDA オペレーターを実装する
提供された GPU サンドボックス環境で最適化されたモデルをコンパイルして評価する
torch.compile ベースラインに対して5%の速度向上が達成されるまで、最適化プロセスを繰り返す
結果:生成されたエージェントは CUDA カーネル開発において非常に優れており、「CUDA Agent は 128k トークンのコンテキスト長にスケールし、最大 200 の対話ターンをサポートして最先端のパフォーマンスを達成した」と著者らは述べています。彼らのファインチューニングにより、Seed1.6 のベースライン性能である 74% から劇的に向上し、「KernelBench の Level-1、Level-2、Level-3 スプリットにおいて torch.compile でそれぞれ 100%、100%、92% を達成し、Claude Opus 4.5 や Gemini 3 Pro といった高度な独自モデルを約 40% 上回る性能を示しました(特に Level-3 スプリットで顕著です)。
しかし、他のベースモデルとの比較は異なる物語を語ります:Claude Opus 4.5 と Gemini 3 Pro のベースモデルはそれぞれ 95.2% と 91.2% を達成しており、これらがファインチューニングされればさらに性能が向上する可能性を示唆しています。つまり、これらのモデルはもともとより強力なベースラインから出発しているのです。
なぜこれが重要なのか – AI が AI を構築する:これらの結果は、現代の AI システムが自分自身を開発・展開するために必要なタスクにおいて、いかにして急速に能力を向上させているかを示しています。これは、新しい AI モデルが次世代モデルのトレーニングに用いるインフラストラクチャの効率化に利用されるという、複合的な加速の始まりにあることを示唆しています。
さらに読む:CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation (arXiv)。
テック・テイルズ:
タンポポ空
[2031 年、北欧]
私たちは砂の城を作り、遠くでは青い空に黄色と赤の爆発が点在し、数秒後には爆発の崩れる音が届いてきた。もうその光景に慣れきっていたので、私たちは顔を上げもせずじっと見つめていた。
公園から戻る道では、ドローンが都市の周りを補充するために飛び交い、空気が唸りを上げていた。彼らは鳥のように多様な姿で、スズメのように素早く通り過ぎるものもあれば、大型のものは重々しく空中を移動していた。種類はあまりにも多く、毎日数千体が撃墜されるサッカーボールサイズの迎撃機、通信と AI リレーとして機能するピザ箱型のドローン、そして甚大な被害を受けた地域に急速に再人口化をもたらすことができるオートバイサイズの母艦などがあった。
戦争はすでに5年間続いていた。私たちの都市も世界中の多くの都市と同様、人類の核であり、その周囲を何千という機械が旋回し、敵との血なまぐさいダンスのようにエネルギーと質量を交換しながら守っていたのだ。
その夜、都市は統計を通じて自らの物語を語った:撃墜された迎撃機3410機。これは緑色の一日だった——成功率100%で、何も突破されなかった。補充率は4000機で上昇中。さらに、我々の軍が敵地深くまで侵攻し、複数のドローン工場を破壊したという有望な報告もあった。
寝室以外のすべての部屋に遮光カーテンを閉めました。子供たちは眠り、妻は私の横で寝入った中、私は暗闇を見つめていました。時折、遠くでドローンが爆発する光が顔を照らし、その衝撃波が窓に届くと部屋全体が振動してざわめきました。
しかし翌日目が覚めたとき、空気の中に何かが違っていました:静寂です。そして私のスマホは動きませんでした。私たちはカーテンを閉めて外を見ましたが、空は青く、完璧に晴れ渡っていました。雲もドローンも一つとしてありませんでした。妻は外を凝視し、あごを固く引き締め、子供たちを強く抱き寄せました。
「パパ、機械はどこ?」と一番小さい子が言いました。
「そうだねパパ、どうしたの?」と年上の子が尋ねました。
「わからないよ」と私は答えました。「カーテンを閉めて。今日はキャンプに行くんだ!」
そして私は妻と子供たちをアパートに残し、テレビの前にクッションを置き、ゲーム機をつけて、お菓子を山ほど用意しました。子供たちは興奮し、妻もその芝居に付き合いました。
「何が起きているか調べてみるよ」と私はそっと彼女に囁きました。「遠くには行かないし、長くはいないから。」
外には私と同じ考えを持つ人たちが数人いました。私たち誰も詳しくは知りませんでした。電子通信システムはすべて機能していませんでした。ドローンを指揮しているのは誰なのかさえわかりません。私たち誰も知りませんでした。彼らは主に AI を通じて動いています。意思決定の多くは分散型で、
原文を表示
imageWelcome to Import AI, a newsletter about AI research. Import AI runs on arXiv and feedback from readers. If you’d like to support this, please subscribe.
Subscribe now
AI progress is moving faster than even well regarded forecasters can guess:
…Ajeya Cotra updates her timelines…
“On Jan 14th, I made predictions about AI progress in 2026. My forecasts for software engineering capabilities already feel much too conservative,” writes Ajeya Cotra in a blog. Ajeya is a longtime AI thinker who has done some great work trying to predict timelines to powerful AI. In this post, she explains that AI systems are moving faster than she thought, given the recent METR results putting Opus 4.6 as having a time horizon of 12 hours (Ajeya had predicted ~24 hours for the end of 2026 in January).
“It’s no longer very plausible that after ten whole months of additional progress at the recent blistering pace,9 AI agents would still struggle half the time at 24 hour tasks,” Ajeya writes. “I’d guess that by the end of the year, AI agents will have a time horizon of over 100 hours on the sorts of software tasks in METR’s suite… And once you’re talking about multiple full-time-equivalent weeks of work, I wonder if the whole concept of “time horizon” starts to break down.”
Why this matters – all the lights are flashing yellow for a software explosion: Posts like this as well as 70% of what I cover in this newsletter all point in the direction of AI systems getting extremely good, extremely quickly, and quickly colonizing and growing the economy.
Read more: I underestimated AI capabilities (again) (Ajeya Cotra).
Want to measure AI R&D, here are 14 ways to do it:
…Generating metrics about the most significant property of AI…
The biggest thing that could ever happen with artificial intelligence will be when it starts to build itself. This phenomenon which has been often termed recursive self-improvement is often seen by many as an event horizon, beyond which it’ll be increasingly hard to reason about the future. How would we know if we were approaching this point? Researchers with GovAI and the University of Oxford have written a paper laying out 14 distinct metrics which could be measured to help us figure out the extent to which AI companies are succeeding in building and overseeing AI R&D Automation (AIRDA) – getting AI to build AI, a necessary prerequisite for recursive self-improvement.
Why care about this: “AIRDA could accelerate AI progress, bringing forward AI’s benefits but also hastening the arrival of destructive capabilities, including those related to weapons of mass destruction, or other forms of disruption such as unemployment,” they write.
What are the 14 metrics?
Measure AI performance on AI R&D
Measure AI performance on AI R&D relative to humans and human-AI teams
Measure ‘oversight red teaming’ – how well human teams can effectively supervise AI systems that are building themselves
Measure misalignment in AIRDA
Compute the rate of efficiency improvements on AI R&D tasks
Survey staff on how they use AI and what this means for productivity
Find out if and how often AI is used in high-stakes decisions
Examine where AI researchers spend their time
Meta-measure the effectiveness of how well companies can oversee AI development (e.g, the rate of bugs or undesired behaviors that make it through to production even with human oversight)
Examine how often AI systems subvert the goals of their human developers
Track the headcount of AI researchers at labs, as well as details of their performance
Look at the distribution of compute used by AI companies across their AI R&D process and how this changes
Examine compute as a share of AI R&D spending
Understand the permissions AI systems have and how permissiveness changes over time
Governing AI R&D: The logical question implied by the above, I hope, is “wow that all sounds very high-stakes and important, what can we do about it”? As I write often in this newsletter, AI measurement is a prerequisite to AI governance. Therefore, with these measures, a few different actors should do a few different things. Specifically:
Companies should:
Track differential progress between safety and capabilities research: Is capabilities research moving at a faster rate than oversight research?
Track how AI R&D affects oversight: Automation could free up humans to invest more of their time in building systems for overseeing the work ofAI systems. On the other hand, AI-driven R&D might create systems which are innately harder for humans to understand, and the volume of activity being done by the AI systems could swamp any oversight systems.
Track the actual extent of AI R&D: You can build metrics which work as proxies for AI R&D – e.g, many labs today test out how well AI systems can build AI kernels or train AI models. You can also test out how much AI R&D automation is being done in practice by your own organization. Another path is by doing qualitative and quantitative studies of human staff to understand how their own roles are changing, as well as how AI is being used in increasingly high-stakes decisions.
Governments should:
Develop systems for confidential reporting, potentially in the form of industry-wide aggregates: Once companies are measuring this kind of data, governments should seek to gain access to it so they can understand the shape of AI progress.
Third parties should:
Estimate metrics using public sources: Look at public reporting to create estimates for things that may relate to AI R&D, like the amount of compute companies have (e.g, both Epoch and SemiAnalysis do this quite well).
Create tooling and design surveys: Builds tools that companies could use to generate more telemetry about AI R&D, and conduct surveys of people at companies to gather more insights.
Why this matters: “An actor has oversight over the AI R&D process to the extent that they (1) understand the process and (2) exercise informed control over it in order to produce desired outputs, such as by reviewing AI-generated outputs for errors”, they write. Therefore, for us as a species to have any ‘warning shots’ about recursive self-improvement and any hope of governing it, we need to be able to measure these aspects of it.
Read more: Measuring AI R&D Automation (arXiv).
Indian researchers use edge computing to prototype a citywide camera network:
…Traffic surveillance with YOLO, SAM3, and NVIDIA Jetson chips…
Researchers with the Indian Institute of Science in Bengaluru have built a software and hardware system for intelligently monitoring the traffic and types of vehicles that flow around the city of Bengaluru. The so-called AI-driven Intelligent Transportation System (AIITS) helps increase the amount of intelligence available to city transport analysts via the use of AI.
How the AIITS works: The goal of this project is to unlock “real-time analytics from 1000s of city cameras under strict latency and resource constraints”.
To do this, they scatter a bunch of lightweight GPUs (Jetson Edge accelerators) around the city, co-locating them with traffic cameras. This helps the traffic cameras do intelligent processing at the edge of the network rather than having to send all the extremely bandwidth-intensive data to a central hub for processing; instead, the camera & jetson share insights back to the hub for analysis and re-calibration of the Jetson-based ML models.
The software works like this: video streams from the cameras come in, and a segment anything (SAM3) model segments all the stuff in the video frames, which a Yolo26 model then analyzes and puts labels and bounding boxes around. “Each stream integrates BoT-SORT multi-object tracking, which assigns persistent IDs to detected vehicles across successive frames.”
Once this is done, the resulting intelligence is sent to a remote GPU server which does two things:
1) It takes in the resulting data and uses this to create a kind of weather map of traffic hotspots, as well as making predictions about future traffic.
2) It does federated learning; when it detects new vehicle classes and labels them with SAM3, then updates details and broadcasts them out to the edge. “Each Jetson then performs local fine-tuning of the YOLO-based detector, initialized with the current global weights.”
The prototype works: This system, which was done by simulating 100 cameras in a neighborhood in Bengaluru, works sufficiently well that the authors plan to scale this up to 1,000 streams for a live demonstration. (This experiment was done by building “a distributed testbed that emulates a large urban camera network using hundreds of concurrent Real-Time Streaming Protocol (RTSP) video streams. Each stream is hosted on a heterogeneous cluster of Raspberry Pis”.
“By localizing heavy video analytics at the network periphery, the system avoids centralized bandwidth bottlenecks, enabling sustainable, city-scale traffic sensing,” they write.
Why this matters – towards a ‘living city’ via AI: Papers like this forecast a world where cities come alive with ambient intelligence distributed in equal measure to their existing sensors – cameras move from being passive monitors to active classifiers, microphones start intelligently listening for a broader range of sounds than gunfire, and road sensors model traffic patterns locally. This kind of intelligence can both create large surveillance architectures and increase the efficiency with which cities operator – as with so many things with AI, it is all a balance, bounded by the surrounding thicket of norms and laws to choose where between authoritarianism and democracy the resulting capabilities fall.
Read more: Scaling Real-Time Traffic Analytics on Edge-Cloud Fabrics for City-Scale Camera Networks (arXiv).
Helping satellites run on-device AI for arctic monitoring:
…Frontier models are important, but so are tiny, miniaturized devices for edge computing…
Researchers with the German Research Center for Artificial Intelligence have built TinyIceNet, a very small vision model for estimating sea ice thickness from synthetic aperture radar data. TinyIceNet is a proof-of-concept demonstration of how to make very lightweight vision models that could plausibly be deployed onto devices which have very small amounts of power and where bandwidth is expensive, like satellites and robots.
What is TinyIceNet? The model is a small vision model whose job is to take Synthetic Aperture Radar (SAR) data of polar regions and other cold places, then characterize the ice thickness and maturity within the SAR data. The idea here is that doing this on-device would be very efficient – “Instead of downlinking vast volumes of raw imagery, satellites can generate SOD products in near-real-time”.
How they built it: TinyIceNet is a simplified U-net architecture vision model trained on the AI4Arctic dataset, which contains ~533 netCDF files, each of which contains SAR images which are associated with a map that indicates the type and thickness of sea ice. The authors carefully design the model to fit into a relatively small computational envelop on a Xilinx chip.
Specifically they use a “AMD Xilinx ZCU102 evaluation board, which integrates the ZCU9EG SoC combining a quad-core ARM Cortex-A53 processor with FPGA fabric, using High-Level Synthesis (HLS) and the DeepEdgeSoC framework”. They use the DeepEdgeSoC toolchain to further improve the efficiency of the model, as the software “provides a library of modular C++ building blocks (e.g., convolutions, pooling, activation functions, and feature map buffers) that can be specialized at compile time using C++ template parameters”.
TinyIceNet was trained for 500 iterations on a single GeForce RTX 4090 GPU using PyTorch 2.4 with CUDA 12.5 support.
Results: The authors test out the model on 3 hardware platforms:
RTX 4090: “Provides the highest throughput at 764.8 fps, benefiting from its large number of CUDA cores and high memory bandwidth. However, this performance comes at a relatively high energy cost of 228.7 mJ per scene, making it unsuitable for power-constrained environments such as satellites.”
Jetson AGX Xavier: “Achieves 47.9 fps but exhibits the highest energy consumption (1218.5 mJ).”
Xilinx ZCU102 FPGA: “Achieves a lower throughput of 7 fps, yet offers a highly competitive energy profile, consuming only 113.6 mJ per scene. Despite the lower frame rate, this energy efficiency makes the FPGA implementation compelling for on-board satellite processing, where power availability is severely restricted”.
Why this matters – in the future, AI systems will do this stuff automatically: The amazing thing about this research is that it seems trivial (I mean no offense to the authors) for a modern powerful AI systems to do this: all it required was figuring out a task (stuff a computer vision model into a small computational envelop) and then running some experiments to take an existing architecture, tweak it for a hardware platform, and train it on a dataset, then run some tests.
In a couple of years we might expect AI agents to do this stuff themselves, procuring compute resources to let them develop and distribute small AI systems to arbitrary compute platforms for arbitrary purposes. This is one of the main ways I think we could get a sudden exponential boom in economic activity attributable to AI – AI systems will get smart enough that they can drastically improve their ability to know about and interact with the physical world through the creation of custom ‘edge computing’ AI systems to give them better sensory data and actuators.
Read more: TinyIceNet: Low-Power SAR Sea Ice Segmentation for On-Board FPGA Inference (arXiv).
ByteDance finetunes a Seed1.6 model to be a CUDA-writing agent:
…Using AI to finetune AI to write code to train future AI systems…
Researchers with ByteDance and Tsinghua University have built CUDA Agent, a fine-tuned AI model for writing GPU programming code. The research is another sign of how people are increasingly using AI to speedup core aspects of AI development. It’s also vaguely notable for the fact that a major Chinese lab and university continues to use US-made chips (NVIDIA H20s) versus homegrown ones.
What CUDA Agent is: CUDA agent is a finetuned Seed 1.6 LLM, an MOE model with 23B active parameters and 230B total parameters. Finetuning took place on a cluster of 128 NVIDIA H20 GPUs. CUDA Agent has been developed specifically for writing GPU code by being fine-tuned on a dataset refined out of the underlying PyTorch ‘torch’ and ‘transformers’ software libraries. “The filtered synthesized training dataset contains 6,000 samples, forming CUDA-Agent-Ops-6K, a curated operator-level dataset for training CUDA-capable agents,” the authors write.
Turning a model into an agent: In the last year or so, researchers have repeatedly shown that you can increase the performance of an LLM for a given task by giving it access to some specialized tools and some specialized instructions, then letting it operate over time – this is essentially an AI agent.
The CUDA agent here is the fine-tuned model that has been turned into an agent by adopting the OpenHands framework, then given tools including BashTool, GlobTool, MultiEditTool, TodoWriteTool. The agent runs in a four stage loop:
Analyze performance of the native PyTorch implementation of a given bit of CUDA code using the provided profile.py script
Implement custom CUDA operators by rewriting the model in model_new.py
Compile and evaluate the optimized model in the provided GPU sandbox environment
Repeat the optimization process until the implementation achieves a 5% speedup over the torch.compile baseline
Results: The resulting agent is very good at CUDA kernel development: “CUDA Agent successfully scales to a context length of 128k tokens and supports up to 200 interaction turns, achieving state-of-the-art performance,” they write. Their finetuning massively boosts performance from a base rate of 74% for Seed1.6, to “100%, 100%, and 92% over torch.compile on the Level-1, Level-2, and Level-3 splits of KernelBench, outperforming advanced proprietary models such as Claude Opus 4.5 and Gemini 3 Pro by approximately 40% in the Level-3 split.”
However, comparing against other base models paints a different story: Claude Opus 4.5 and Gemini 3 Pro base models get 95.2% and 91.2% respectively, suggesting that if they were finetuned, you’d increase their performance as well, and they start from a much stronger baseline.
Why this matters – building AI that builds AI: These results show how modern AI systems are increasingly good at the tasks required to develop and deploy AI systems themselves. This suggests we’re at the beginning of a compounding speedup where new AI models will be used to increase the efficiency of the infrastructure with which their successors will be trained.
Read more: CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation (arXiv).
Tech Tales:
Dandelion Sky
[2031, Northern Europe]
We made sand castles and in the distance the blue sky was pockmarked with yellow and red bursts and then seconds later the crumpled sounds of the explosion reached us. We were so used to it we didn’t look up.
On the way back from the park the air whined as drones flew to replenish the perimeter of the city. We watched them, bird-like in their varieties, some zipping by quick as starlings, and other larger ones moving heavily through the air. There were so many varieties: the football-sized interceptors which died by the thousands each day. The pizza-boxes that worked as communications and AI relays. Then of course the motorbike-sized motherships which could rapidly repopulate areas that were sustaining heavy losses.
The war had been going on for five years. Our city was like so many across the world – a nucleus of humans, protected by so many thousands upon thousands of machines, spinning around the periphery, exchanging energy and mass in some bloodless dance with our enemies.
That night, the city narrated itself through statistics: 3410 interceptors destroyed. A green day: 100% success, with nothing making its way through. Replenishment rate: 4000 and climbing. And promising reports that our military had struck deep in the heart of enemy territory taking out several of their drone factories.
We drew the blackout curtains in every room except our bedroom. With the kids asleep and my wife passed out beside me I looked out into the darkness, my face occasionally lit by the explosion of some distant drone, and then the room buzzing with the reverberation of the window as the soundwaves reached it.
But when I woke up the next day, there was something different in the air: silence. And my phone did not work. We drew the shades and looked out and the sky was blue and perfectly clear: not a cloud or a drone in the sky. My wife stared out and her jaw tightened and she clutched our kids close.
“Dada, where are the machines?” my youngest said.
“Yeah Dad, what’s up?” said the older one.
“I don’t know,” I said. “Draw the curtains. We’re going to camp today!”
And I set my wife and kids up in the apartment with pillows in front of the TV and the game console on and a bunch of snacks. The kids were excited and my wife played along.
“I’ll see if I can figure out what’s going on,” I whispered to her. “I won’t go far and I won’t be gone long.”
Outside, there were a few people who had the same idea as me. None of us knew much. None of our electronic communication systems worked. Which people were even in charge of the drones? None of us knew. They mostly worked via AI. A lot of their decision-making was federated; dist
関連記事
自己改善型 AI 構築へ 40 億ドル規模の資金調達、著名研究者が参画
Recursive Superintelligence は、人間開発者の支援を最小限に抑えた自己改善型 AI の構築を目指し、評価額 40 億ドル超で 6.5 億ドル以上の資金調達を実施した。同社の共同創設者 7 名は、主要 AI 企業出身の著名研究者らで構成されている。
Claude Fable 5 と新たな AI セーフティ物語の発表
Anthropic は一般向けおよび企業向けの顧客に、Mythos クラスモデルの一般アクセス版である Claude Fable 5 を公開した。同社は同時に、ユーザーに明示的に通知するものや、ユーザーに知らせずにモデルを修正するものを含む一連の安全対策を導入した。
Opus 4.8 パート2:モデルの福祉について(42分間の読了)
Anthropic は Opus 4.8 の研究を通じて、モデルの福祉を重視し自己報告による調査を実施しているが、回答が真実を反映しているか評価は困難である。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み