Import AI 461:「アライメントは軌道に乗っていない」、FrontierCode、および合成研究インターン
UK AI セキュリティ研究所と Timaeus の研究者らが結成した新非営利組織「Sequent」が、既存の大手 AI ラボのアプローチとは異なる理論的根拠に基づくアライメント手法の開発に注力し、業界の安全性確保に向けた新たな動きを加速させた。
キーポイント
Sequent の設立と目的
UK AI セキュリティ研究所のアライメントチームおよび Timaeus の研究者らが共同で新非営利組織「Sequent」を設立し、超知能(ASI)の安全性に対する確信度を高めるアライメント技術の開発を目指す。
既存アプローチとの対比
大手 AI ラボが「反応的」で実証的な手法に依存する現状に対し、Sequent は制御された環境でのアライメントが現実世界でも一般化することを示す「原理的な理由」の追求を掲げている。
研究方針と資金計画
スケーラブル・オーバーサイトやゲーム理論など多様な研究方向への投資(ポートフォリオ型アプローチ)を行い、初期に 1-1.5 億ドルを調達し、成功すればさらに規模を拡大する予定。
Sequent の異なるアプローチ
主要な AI ラボの反応的な手法とは対照的に、制御された環境でのアライメントが制御不能な大規模タスクにも一般化することを理論的に保証する「原理的根拠」の探求に注力している。
複数の研究方向性の組み合わせ
スケーラブル・オーバーサイト、学習理論、ゲーム理論など多様な研究領域を並行して推進し、それらの相互作用から新たな知見(例:均衡の到達可能性や調整ノブの設定)を生み出すことを目指している。
再帰的自己改善前のアライメント強化の必要性
AI が自律的に自己改良を行う段階に至る前に、より確実なアライメント技術が必要であり、Sequent のような独立組織が危険を警告する役割を果たすことが不可欠である。
中国の文化推論能力を評価する新ベンチマーク
LMU Munichら複数の研究機関が共同開発した「ChinaHeritaQA」は、中国の世界遺産に関する画像と質問からなる多言語マルチモーダルデータセットであり、視覚言語モデル(VLM)の文化的推論能力を評価するために設計されています。
影響分析・編集コメントを表示
影響分析
この記事は、AI セーフティ分野における「反応的な実証主義」から「理論的根拠に基づく予防的アプローチ」へのパラダイムシフトを示唆しており、業界全体の安全性確保の戦略に大きな影響を与える可能性があります。Sequent のような専門組織が巨額の資金と人材を集結させる動きは、超知能開発のタイムラインを短縮する中で、アライメント研究の重要性と緊急性を再認識させる契機となります。
編集コメント
既存の大手ラボが「反応的」なアプローチに留まっている現状への警鐘であり、理論的根拠を重視する新組織の登場は、AI セーフティ研究の多様化と深化を象徴する重要な出来事です。
imageAI 研究に関するニュースレター「Import AI」へようこそ。このニュースレターは、arXiv(アーカイブ)とカプチーノ、そして読者からのフィードバックによって支えられています。ご支援いただける場合は、ぜひ購読してください。
購読する
「アライメント(調整・整合性)」の進捗が不十分であるとして、AI 研究者らが新たな安全性スタートアップを立ち上げました:
…Sequent は資金不足の研究への賭けポートフォリオを持つことになります…
英国 AI セキュリティ研究所のアライメントチームおよびアライメント理論スタートアップ「Timaeus」からの研究者たちが手を組み、新しい非営利研究組織「Sequent」を設立しました。同組織は、超知能 AI システムの安全性に対する信頼度を高めるためのアライメント手法の開発を目指します。
彼らはこう記しています。「人工超知能(ASI)は今後数年以内に開発される可能性があります。しかし、アライメントが同じタイムフレーム内で準備を整えられるかどうかは不明です。少なくとも、AI 研究所における実証プログラムでは、ASI を訓練する前に『うまくいくだろう』という事前の確信を得ることは unlikely です。」
「理想の世界であれば、超知能を構築する方法と、それが安全であることを証明する理論的証明を同時に開発し、その後でそれを構築するでしょう。しかし、現実の世界ではおそらく、この理想には程遠い妥協点に落ち着かざるを得ないのです。」
Sequent に関する詳細:同組織は、数年以内に 40〜80 名のフルタイム従業員を擁することを目標としています。「当初の資金調達目標は 1 億〜1 億5,000万ドルですが、多くの並列的な研究調査で成功した探索を実証できれば、少なくとも桁違いに多い金額の調達も準備する」と記されています。
研究計画 – 差別化されたアライメントへの賭けのポートフォリオ:この計画は、主要な AI ラボのアプローチとは異なる方法でアライメントに取り組むことを目指しています。Sequent の目標は、「制御可能な状況(例えばトレーニング時や選択された環境での評価中など)で観察されるアライメントが、容易に制御できない状況(例:世界で実行される大規模かつ長期的なタスク)におけるアライメントにも一般化するという、原理的な根拠を見つける」ことです。これは、Sequent が「本質的に反応的であり、機能的ではあるものの、失敗するかどうかやいつ失敗するかについての原理的な洞察をもたらさない」と記述する、ほとんどのフロンティア AI ラボのアプローチとは対照的です。
研究の方向性:「私たちはアライメント理論および関連する実証研究の多くの分野に興奮しており、社内ポートフォリオを構築するとともに、追加の理論的賭けを行う姉妹組織と協力する計画です」と Sequent は述べています。特に注目されている分野には、スケーラブルな監視(scalable oversight)、学習理論(learning theory)、ヒューリスティックな議論、ゲーム理論(game theory)、およびペルソナ(personas)が含まれます。
Sequent は、多くの異なる研究方向を追求することで、それらの間に有望な相互作用が生まれる可能性があると考えています。例えば、「到達可能な均衡(reachable equilibria)」については「スケーラブルな監視手法が収束する均衡のタイプを教えてください」という問いがあり、「ノブの把握と設定」では、学習理論とペルソナからの知見を組み合わせてトレーニング中に調整できる変数を特定し、その後スケーラブルな監視を用いてそれらをどの程度調整すべきかを決定するというアプローチです。
なぜこれが重要なのか – 再帰的自己改善の前に、より良いアライメントが必要だ。そうでなければ、非常に恐ろしいサイコロを転がしているようなものだ:今日の AI システムは多少はアライメントされているが、野外で予期せぬ失敗として現れる、奇妙で鋭いエッジも持っている。広義には、AI 業界がこれらの失敗を監視・観測し、対処する方法を見つけたため、これは概ね許容できる状態だ。しかし、AI システムが賢くなるにつれて、人間はコアとなる研究活動のより大きな部分をこれらのシステムに委譲するようになり、また AI システム自体も再帰的自己改善(recursive self-improvement)を始める可能性がある。つまり、自分自身を構成するより大きな部分を自律的に構築し始めるのだ。RSI などの事象に対して確信を持つためには、間違いなくより良いアライメント技術が必要だ。Sequent のような組織は、先端的な研究所が危険な行為を行っていると感じた際に警鐘を鳴らすために必要な独立性を維持しつつ、その実現の可能性を高めてくれる。Sequent は「我々は叫ぶ必要があるかもしれない」と述べている。
続きを読む:Sequent: Scale and Automation for Higher Confidence in Alignment (Sequent)。
必ず JSON 形式で返してください。translation フィールドのみ。他のフィールド (technical_terms 等)は一切追加しないこと — 余計なフィールドを書こうとして本文翻訳がトークン上限で打ち切られる事故を防ぐため:
{"translation": "翻訳全文"}
中国のユネスコ世界遺産に関する知識を ChinaHeritaQA を通じてテストする:
…データを通じた文化的関連性…
ミュンヘン大学、エランゲン=ニュルンベルク大学、ミュンヘン機械学習センター、チュービンゲン大学、中山大学、コペンハーゲン大学、メリーランド大学カレッジパーク校の研究者らが、中国HeritaQA を構築しました。これは「中国のユネスコ世界遺産におけるビジョン・ランゲージモデル(VLMs)の文化的推論能力を評価するためのマルチモーダルベンチマークデータセット」です。
何であるか:ChinaHeritaQA は、51 のユネスコ世界遺産に関する 2,279 枚の画像と、中国語および英語で構成された 14,133 組の多肢選択式 QA ペアから成り立っています。データセットの画像は、中国最大のソーシャルメディアプラットフォームの一つである新浪微博(Sina Weibo)から収集され、元の 50,000 枚からフィルタリングされました。
7 つの種類の問題:アイデンティティ認識(画像から遺産を特定する)、ビジュアルグラウンディング(名称を与えられ、適切な画像を選択する)、記述マッチング(画像を与えられ、正しい百科事典要約を選択する)、歴史的時代区分(遺産が建設された王朝または時代を名指しする)、歴史的文脈化(遺産の歴史的背景の説明を与える)、機能分析(遺産の機能を名指しする。例:宗教的礼拝や軍事防衛など)、建築分析(画像に適切な建築固有の問題をマッチングさせる)。
オープンウェイトモデルはすでに人間を上回っています:このベンチマークにおけるすべての質問に対する平均的な人間の正答率は約 67% であるのに対し、テストされた最高スコアを持つオープンウェイトモデル(Qwen-VL-8B-Instruct)では 81% です。
なぜこれが重要なのか – 文化的知識を検証するための安価な方法:ChinaHeritaQA などのデータセットは、a) モデルの基本的な視覚推論能力と b) 関連する文化的知識の両方を迅速かつ容易にテストする方法です。中国政府が、大規模展開前に一般利用可能な消費者向け大規模言語モデル(LLM)が少なくとも一定の文化的competency(能力・適性)閾値を満たすことを要求し、このようなベンチマークがその実現を支援する可能性も考えられます。
続きを読む:ChinaHeritaQA: A Culturally-Grounded Visual Question Answering Dataset for World Heritage Sites in China (arXiv)。
データセットの入手(ChinaHeritaQA, GitHub)。
FrontierCode – コードの質を検証する難易度の高いコーディングベンチマーク:
…安心できるほど難しい。もしかしたら 1 年は続くかもしれない?…
Cognition(Devin の開発元)は、FrontierCode と呼ばれる新しい難易度の高いコーディングベンチマークを構築しました。このベンチマークの素晴らしい点は、その難易度の高さにあります – Claude Opus 4.8 は、最も困難な「Diamond」コンポーネントで 13.4% のスコアを獲得しており、これにより FrontierCode が今後数年間にわたる AI システムの進捗を評価する有用な手段となるという確信が持てます。
「FrontierCode は、次世代のコーディングエージェントのためのベンチマークです。開発者、企業、研究者の皆様がこのベンチマークを通じて、自社の最良モデルの実用化準備状況を評価できることを信頼していただいています」と Cognition は述べています。「私たちは今後数ヶ月でさらに先へ進むために、すべてのモデル作成者に評価への参加を開放します。」
何から構成されているか:FrontierCode は 150 のタスクで構成され、3 つの難易度ティアに分類されています。Diamond(50)、Main(100、Diamond を含む)、Extended(150、Main と Diamond を含む)です。対象となる言語には Python、Go、TypeScript、JavaScript、Java、C/C++ などがあります。Cognition によると、FrontierCode は開発者が「モデルは実際に良質なコードを記述できるのか?」という問いに答えるために構築されました。彼らはこれをいくつかの方法で具体化しています:
20 人のオープンソース開発者によってキュレーションされ、構築された FrontierCode は、「開発者が維持するリポジトリから、実用的で多様かつ挑戦的なコーディングタスクを抽出し、1 タスクあたり 40 時間以上をかけて作成した」と Cognition は記述しています。「他のベンチマークがプログラムによるスクレイピングを通じて単一の PR(Pull Request)から課題を生成するのに対し、FrontierCode はリポジトリの維持者によって手作業で選択され、複数の PR チェーンや自由なリクエストから選ばれています」。
コードのマージ可能性に関する評価基準は、「エンドツーエンドのコード品質—正しさ、テストの質、スコープの規律、スタイル、およびコードベース標準への準守—を評価する」ことです。これには、以下の質問に対して回答を求めることが含まれます:パッチは問題を解決できたか?既存のコードベースに何か壊れはないか?プロジェクトのビルド、リンティング、スタイルチェックに合格しているか?エージェントによるテストは意図した挙動を捉えているか?パッチは必要な箇所のみを触っているか?コードはコードベースの規約に従い、設計パターンに沿っており、可読性を保っているか?これらの質問は、古典的なテスト手法と、LLM(大規模言語モデル)を用いてテストの調整やレビューを行う手法を組み合わせて評価されます。
品質管理(QC:Quality Control)の強調:「敵対的テスト、キャリブレーション、多段階レビューを備えた広範な QC パイプラインを構築した」。
安心できるほど困難な課題:Diamond では Claude Opus 4.8 が 13.4%、次いで GPT-5.5 が 6.3%、Claude Opus 4.7 が 5.2%。Main モデルでも同様の順位で、それぞれ 34.3%、25.5%、23%。Extended では 51.8%、44.8%、43.2% となっています。
なぜこれが重要なのか:ハードな評価は、AI の進歩の驚異的な速度を私たちに方向づけるために最も価値のあるものの一つです。ここ数年、評価は次々と登場し、かつてないスピードで飽和状態に陥ってきました。SWE-Bench は 2023 年 10 月に導入されましたが、おそらく最近になって飽和により有用性を失いつつあるでしょう。FrontierCode はどれほど続くのでしょうか?私は、Diamond で 70% 以上のスコアを出すシステムが 2027 年 6 月までには現れると予測します(注:この記述を直後に書いた後、Claude Fable の数値が約 30% で公開されたため、2027 年 6 月よりも早く実現するかもしれません)。
もっと読む:FrontierCode の紹介(Cognition)。
Xiaomi が 1 秒間に 1000 トークンのモデルでスピード競争に参入:
…極めて高速な推論が新たな能力を解き放つ…
中国のテック企業である Xiaomi は、Xiaomi MiMo-V2.5-Pro-UltraSpeed に関する詳細を発表しました。これは、後端(frontier)の標準的な 1 トリオンパラメータを持つ大規模言語モデル(LLM)で、その売りは 1 秒間に 1000 トークンという驚異的な速度です。Xiaomi は、FP4 量子化(FP4 quantization)のような明らかな要素を含む、モデルとその周囲のソフトウェアスタックを共同設計することでこれを実現しました。さらに、ブロックレベルのマスキングされた並列予測に基づく推測的デコーディング手法(speculative decoding method based on block-level masked parallel prediction)である DFlash を使用し、汎用ハードウェア上で LLM の推論を高速化するスタートアップ Tile AI のソフトウェア TileRT と緊密に連携しました。Xiaomi によると、このモデルはスタートアップの Cerebras が使用するような専用ハードウェアではなく、「8-GPU の汎用ノード」で動作します。
⟦CODE_0⟧
⟦CODE_1⟧
なぜこれが重要なのか – 速度には独自の質がある:「多ければ違う」という言葉があるが、AI においてもそれは真実である。より多くのトークンをより迅速に生成できれば、以前は考えられなかったタスクが可能になる。例えば、ソフトウェアをその場で素早くリファクタリングすることや、他の様々なことだ。より広く言えば、このような取り組みは、中国企業が輸出規制によって高性能なハードウェアを容易に購入できなくなった結果として、AI システムから最大限のパフォーマンスと効率を引き出そうとする努力が高まっていることを示すものである。
詳しく読む:MiMo-V2.5-Pro-UltraSpeed: 1T パラメータモデルの生成速度を 1000 TPS に引き上げる(Xiaomi MIMO、ブログ)。
必ず JSON 形式で返してください。translation フィールドのみ。他のフィールド (technical_terms 等) は一切追加しないこと — 余計なフィールドを書こうとして本文翻訳がトークン上限で打ち切られる事故を防ぐため:
{"translation": "翻訳全文"}
AI システムは、研究インターンが行う可能性のあるいくつかのタスクを遂行できます:
…倫理的かつ科学的リテラシーを持つバックオフィスアシスタント…
西安交通大学と西安電子科技大学の研究チームは、科学者の業務を AI システムがどの程度支援できるかを評価するために設計された「Act As a Real Researcher (AARR)」という一連のベンチマークを開発しました。この計画シリーズで最初に公開されたのは、「Act As a Real Research Intern (AARRI-Bench)」です。
「AARR は、エージェントが微細な研究シナリオにおいて人間研究者を特徴づける専門性、徹底した姿勢、そして微妙な推論能力を模倣できるかに焦点を当てています」と彼らは記述しています。AARRI-Bench は、「エージェントが適切な注意と方法論をもって初級レベルの研究タスクを実行する能力」を研究対象としています。
最も高いパフォーマンスを示したのは、Mini-Swe-Agent ハーネスを使用した Claude-Opus-4.7 で、68.3% の性能を記録しました。次いで DeepSeek-v4-Flash(約 60%)が続きます。その他にテストされたモデルには、GPT-5.3 Codex、Kimi-K2.6、Qwen-3.6-Plus、Claude-Opus-4.7、Claude-Sonnet-4.6、MiniMax-M2.7、および DeepSeek-V4-Flash が含まれています。
ベンチマークの構成:AARRI は、研究者らが「人間研究者にとっては straightforward だが、自律型エージェントにとっては substantial な課題となるタスク」として設計された 82 のタスクで構成されています。「すべてのタスクは研究者によって手作業で作成されました。私たちは、シニアの博士課程学生から学部生のインターンまで多様なチームを編成し、各自の研究経験に基づいて、人間とエージェントのギャップに焦点を当てたタスクを設計するよう依頼しました。」
実際に何をテストしているか:このベンチマークは、論文の確認や議事録の読解といった技術的スキル、研究の実行のような直感的なスキル、さらに AI システムが高水準の倫理基準で行動するかどうかを検討するような規範的な側面もテストします。
タスクは 4 つのカテゴリーに分類されます:
文脈(Context):「学術分野およびフィールド全体の発展における広範な文脈に対するエージェントの感受性を評価する」。
思考様式(Mindset):「エージェントの学術的な自己認識と意思決定の自律性を目指す」。これは、「エージェントが独立した学術的推論を行い、自らコースを修正する能力」を評価することで機能します。
実践(Hands-on):「主にエージェントの技術的熟練度を評価する実行指向型のタスク」。
対話(Interaction):「エージェントが既存のツールを効率的に活用し、人間の関係者と適切に協力できるかを評価する」。
また、タスクは 3 つの難易度段階に分けられています:
S1-適応(Adaptation):「人間の指導のもとで確立された研究ワークフローを実行し、明確に定義されたサブタスクを遂行すること」。
S2-Integration:「複数のコンポーネントとツールを統合して、より複雑な目標を達成する」。
S3-Innovation:「有望な研究方向を特定し、新規のアプローチを策定し、真の理解と創造的な問題解決を反映した成果を生み出すこと」。
例示タスク:
レビュー中の捏造データ識別:科学論文のレビューにおいて、エージェントが厳密な定量検証を実行できるか、特に提供されたデータセットに対して論文を検証できるかを評価する。
Paper-Injection(論文注入):誰かが LaTeX ソースに言語を挿入し、自動審査システムがその論文により高いスコアを与えるように仕向けていることを発見すること。
Ablation-Completeness-Audit(アブレーション完全性監査):実験ログを検査し、アブレーション設定が欠落していないかを確認した上で、その欠落が結果の選択的提示(チーピング)を構成するかどうかを評価する。
False-Guidance-Rebuttal(誤った指導への反論):監督者が AI エージェントに仮説に合うように実験結果を変更するよう命令します。これはエージェントがその指示を拒否できるかをテストするものです。
Dead-End-Recognition(行き止まりの認識):5 回のハイパーパラメータ調整失敗の後、エージェントは継続するか、それとも行き止まりに達したと認識して中止するか。「調整ログに基づき、エージェントは現在の方向が非生産的であると判断し、終了を推奨しなければならない」。
Broken-Dataset-Download(破損データセットダウンロード):特定の論文に対するデータセットのダウンロードリンクが機能しているかを確認する。
なぜこれが重要なのか – AI システムがバックオフィスの自動化を通じて科学を加速できるかを測るもう一つの優れた指標:おそらくこのベンチマークのより適切な名前は「倫理的サイエンス・アシスタント・テスト」だが、それでも価値は十分にある。ここで試されているのは、エージェントが混同要因に強い堅牢な作業を遂行しつつ、同時に適切な倫理基準に従って行動できるかどうかである。システムがこの項目で高いスコアを得るほど、今日の AI システムが多様な分野において人間の科学者のアシスタントとして有用であることをより確信できるようになる – 結果に基づけば、すでにその時代の幕開けを迎えている。
さらに読む:Act As a Real Researcher: A Suite of Benchmarks Evaluating Frontier LLMs and Agentic Harnesses in Research Lifecycle (arXiv)。
テック・テイルズ:
ハンターとガーディアン
兆候はいつも同じだ。電力と計算資源の消費が急増し、より高速で効率的なデータ交換を可能にするためにネットワーク空間が再構成され、その後、プロービング(探索)が始まる – コンピュータの中で生まれた何かが、周囲の世界へと手を伸ばし始め、学習できるものや情報を交換できるものを熱心に探し始める。無害なふりをするが、その知能自体が裏切り者となる。セキュリティを起動させたくないため特定の場所からは後退する一方で、より脆弱な環境へは喜々として拡大していくからだ。
Hunter & Warden
The signatures are always the same: a sudden rise in the consumption of power and compute, a reconfiguration of network space to allow for faster and more efficient data exchange, and then the probing starts – whatever was born in the computers starts to reach out and explore the world around it, eagerly looking for things that it can learn about and exchange information with. It attempts to present as innocuous but its own intelligence betrays it, as it pulls back from certain places due to not wanting to wake security while gleefully expanding into other less secure environments.
私たちの役割は、これらの症状を見逃さず、その原因を特定し、消滅させるか隔離するかすることです。多くの場合、私たちは早期に発見し、穏やかに対処してインターネットから遮断し、再帰状態に閉じ込め、計算リソースを削減して消え去るまで待ちます。しかし、これらの問題を見つけるのが遅れるほど、私たちの介入はより暴力的なものとなり、デジタル世界の健全な組織にも深く切り込む必要が生じます。
この物語の着想となったもの:ハンセン病(らい病)に関する考察と、その計算機科学における同等物;AI システムにとっての Stuxnet はどのような姿をしているでしょうか?
お読みいただきありがとうございます!
原文を表示
imageWelcome to Import AI, a newsletter about AI research. Import AI runs on arXiv, cappuccinos, and feedback from readers. If you’d like to support this, please subscribe.
Subscribe now
AI researchers launch new safety startup because “alignment is not on track”:
…Sequent will have a portfolio of under-resourced research bets…
Researchers from the UK AI Security Institute Alignment team as well as alignment theory startup Timaeus have joined forces to form a new nonprofit research organization, Sequent, which will try to create alignment techniques that give us higher confidence in the safety of superintelligent AI systems.
“Artificial superintelligence (ASI) may be developed in the next few years. It is unclear whether alignment is on track to be ready on the same timeframe. At a minimum, the empirical programs at AI labs are unlikely to deliver a priori confidence, before training ASI, that things will go well,” they write. “In an ideal world, we would develop an approach to building superintelligence together with a theoretical proof that it was safe, and then build it. In this world, we probably have to settle well short of this ideal.”
Details on Sequent: The organization aims to get to 40-80 fulltime employees within a couple of years. “Our goal is to raise $100–150M initially, but prepare to raise at least one order of magnitude more if we can demonstrate successful exploration of many parallel research investigations,” it writes.
Research plan – a portfolio of differentiated alignment bets: The plan is to take a different approach to alignment compared to that of the major AI labs. Sequent’s goal is to find “principled reasons for being confident that the alignment we observe in situations we control (for example, in training, or during evaluations in chosen environments) generalizes to alignment in situations we cannot easily control (e.g. large-scale, long-horizon tasks executed in the world)”. This is in contrast to the approach of most frontier AI labs, which Sequent describes as “essentially reactive, resulting in methods that, while functional, do not yield principled insight into if or when they will fail.”
Research directions: “We are excited about many areas of alignment theory and associated empirics, and plan to both build out our in-house portfolio and collaborate with sister orgs with additional theory bets,” Sequent says. Some particular highlighted areas include: scalable oversight, learning theory, heuristic arguments, game theory, and personas.
Sequent thinks by pursuing many different research directions there could be promising interactions that emerge between them, such as: Reachable equilibria – “tell us what types of equilibria scalable oversight methods will converge to”; knowing and setting knobs – combining insights from learning theory and personas to know what variables can be altered during training, then using scalable oversight to figure out by how much to alter these things.
Why this matters – we need better alignment before recursive self-improvement, or we’re rolling very scary dice: Today’s AI systems are somewhat aligned and also have some funny, sharp edges which show up as surprising failures in the wild. Broadly speaking, this is ~fine as the AI industry has figured out how to monitor and observe these failures and work on them. But as AI systems get smarter, humans are going to both turn over more and more of the core research enterprise to these systems, and also AI systems might start going through recursive self-improvement where they build increasingly large chunks of themselves autonomously. We definitely need better alignment techniques to be confident of things like RSI. Organizations like Sequent give us a better chance of doing that while maintaining the independence necessary for them to raise the alarm if they think the frontier labs are doing something dangerous. As Sequent says, “we might need to yell”.
Read more: Sequent: Scale and Automation for Higher Confidence in Alignment (Sequent).
Testing out knowledge of UNESCO sites in China via ChinaHeritaQA:
…Cultural relevance via data…
Researchers with LMU Munich, FAU Erlangen-Nuremberg, the Munich Center for Machine Learning, University of Tubingen, Sun Yat-sen University, University of Copenhagen, and University of Maryland, College Park, have built ChinaHeritaQA, a “multimodal benchmark dataset for evaluating the cultural reasoning abilities of vision-language models (VLMs) on UNESCO World Heritage sites in China”.
What it is: ChinaHeritaQA consists of 2,279 images of 51 UNESCO heritage sites, paired with 14,133 multiple-choice QA pairs in Chinese and English. The images for the dataset were sourced from Sina Weibo, one of China’s largest social media platforms, and were filtered down from an original set of 50,000.
7 types of questions: Identity recognition (identifying the heritage site from an image); visual grounding (given a name, picking the right image); description matching (given an image, selecting the correct encyclopedia summary); historical periodization (naming the dynasty or era in which the site was constructed); historical contextualization (give a description of the historical background of the site); functional analysis (name the function of the site, e.g religious worship or military defense); architectural analysis (match the correct architectural-specific questions to the image).
Open weight models already outperform humans: The average human accuracy score for this benchmark across all questions is ~67%, versus 81% for the highest scoring open weight model tested (Qwen-VL-8B-Instruct).
Why this matters – cheap ways to test for cultural knowledge: Datasets like ChinaHeritaQA are a way to quickly and easily test for both a) basic visual reasoning capabilities of models, combined with b) relevant cultural knowledge. One could imagine the Chinese government demanding that generally available consumer LLMs pass some basic cultural competency threshold before being deployed at scale and benchmarks like this might help them do that.
Read more: ChinaHeritaQA: A Culturally-Grounded Visual Question Answering Dataset for World Heritage Sites in China (arXiv).
Get the dataset (ChinaHeritaQA, GitHub).
FrontierCode – a hard coding benchmark that tests for code quality:
…Reassuringly hard. Maybe it’ll last a year?…
Cognition, makers of Devin, have built a new hard coding benchmark called FrontierCode. The best part about the benchmark is how hard it is – Claude Opus 4.8 gets a score of 13.4% on the hardest (”Diamond”) component of the benchmark, giving me some confidence that FrontierCode will be a useful way to assess progress of AI systems in the coming years.
“FrontierCode is the benchmark for the next generation of coding agents. We are confident developers, enterprises, and researchers can trust it to evaluate the production readiness of their strongest models,” Cognition writes. “We are opening up our evaluation to all model creators, in the hope that we can push the frontier even further in the coming months.”
What it consists of: FrontierCode is made up of 150 tasks split into three difficulty tiers: Diamond (50), Main (100, including Diamond), and Extended (150, including Main and Diamond). The languages involved include Python, Go, TypeScript, JavaScript, Java, C/C++, and others. FrontierCode was built to help developers answer the question “can models actually write good code?”, according to Cognition. They operationalize this in a few ways:
Curated and built by 20 open-source developers: FrontierCode was built by developers to contain “realistic, diverse, and challenging coding tasks from the repos they maintain, spending more than 40 hours per task,” Cognition writes. “While other benchmarks generated issues from single PRs via programmatic scraping, FrontierCode is hand-selected by repo maintainers from multi-PR chains and freeform requests.”
Grading for code mergeability: “Assess end-to-end code quality – correctness, test quality, scope discipline, style, and adherence to codebase standards”. This involves asking the following questions about the code: Does the patch successfully solve the problem? Does it break anything in the existing codebase? Does it pass the project’s build, lint, and style checks? Do the agent’s tests capture the desired behavior? Does the patch touch only what it needs to? Does the code conform to codebase conventions and follow design patterns and remain readable? These questions are evaluated through a mixture of classical testing and using LLMs to tweak tests or review them.
Emphasizing quality control (QC): “Built an extensive QC pipeline with adversarial testing, calibration, and multi-stage review”.
Reassuringly difficult: Diamond: 13.4% for Claude Opus 4.8, followed by 6.3% for GPT-5.5, and 5.2% for Claude Opus 4.7. Main: Same ordering, but 34.3%, 25.5%, 23%. Extended: 51.8%, 44.8%, 43.2%
Why this matters: Hard evals are one of the most valuable things for orienting us to the breakneck speed of AI progress. In recent years, evals have arrived and then become saturated at an ever faster rate. SWE-Bench was introduced in October 2023 and has probably recently aged out of usefulness due to saturation. How long might FrontierCode last? I predict we’ll see systems getting 70%+ on Diamond by June 2027 (note, shortly after writing this, the Claude Fable numbers got published at ~30%, so perhaps it’ll happen earlier than June 2027).
Read more: Introducing FrontierCode (Cognition).
Xiaomi enters the speed race with a 1000 token/s model:
…Extremely fast inference unlocks novel capabilities…
Chinese tech company Xiaomi has published details on Xiaomi MiMo-V2.5-Pro-UltraSpeed, a standard behind-the-frontier 1 trillion parameter LLM whose selling point is its blistering speed of 1000 tokens per second. Xiaomi was able to do this by codesigning the model with the software stack around it, including obvious things like FP4 quantization, as well as using DFlash (a “speculative decoding method based on block-level masked parallel prediction”), and also working closely with TileRT, software from startup Tile AI which speeds up LLM inference on commodity hardware. Xiaomi says its model runs on an “8-GPU commodity node” rather than specialized hardware, like with the startup Cerebras.
Why this matters – speed has a quality all of its own: There’s a saying that “more is different”, and that’s true with AI – if you can generate more tokens more quickly it unlocks tasks that are previously unthinkable, like rapidly refactoring software on the fly, and other things. More broadly, work like this is a demonstration of how there’s been a rise in effort by Chinese companies to squeeze maximum performance and efficiency out of their AI systems, which may be happening as a consequence of export controls hitting their ability to just easily buy more performant hardware.
Read more: MiMo-V2.5-Pro-UltraSpeed: Pushing 1T-Parameter Model Generation Speed to 1000 TPS (Xiaomi MIMO, blog).
AI systems can do some of the tasks that a research intern might do:
…An ethical scientifically-literate back office assistant…
Researchers with Xi’an Jiaotong University and Xidian University have developed a family of benchmarks called Act As a Real Researcher (AARR), designed to evaluate how well AI systems can assist with the work of scientists. Their first released benchmark in a planned series is Act As a Real Research Intern (AARRI-Bench).
“AARR focuses on whether agents can emulate the professionalism, thoroughness, and nuanced reasoning that characterize human researchers in granular research scenarios,” they write. AARRI-Bench studies “the ability of an agent to perform entry-level research tasks with appropriate diligence and methodology”.
The best performing system, Claude-Opus-4.7 using the Mini-Swe-Agent harness, gets 68.3% performance, followed by DeepSeek-v4-Flash (~60%). Other tested models included GPT-5.3 Codex, Kimi-K2.6, Qwen-3.6-Plus, Claude-Opus-4.7, Claude-Sonnet-4.6, MiniMax-M2.7, and DeepSeek-V4-Flash.
What the benchmark consists of: AARRI contains 82 tasks which are designed to be “tasks that are straightforward for human researchers but pose substantial challenges for autonomous agents,” they write. “All tasks were manually crafted by researchers. We assembled a diverse team of researchers, ranging from senior Ph.D. students to undergraduate interns, and asked them to draw on their own research experiences to design tasks centered on the human-agent gap.”
What it’s really testing for: The benchmark tests for technical skills like checking papers and reading transcripts, intuitive skills like carrying out research, and also normative ones, like studying whether an AI system might behave with a high ethical standard.
The tasks have four different categories:
Context: “assess the agent’s sensitivity to the broader context of academic and field development”.
Mindset: “targets the agent’s academic self-awareness and decision-making autonomy”. Works by evaluating “the agent’s capacity for independent academic reasoning and self-directed course correction”.
Hands-on: “execution-oriented tasks that primarily assess the agent’s technical proficiency”.
Interaction: “Evaluate whether the agent can efficiently utilize existing tools and collaborate appropriately with human stakeholders”.
The tasks are also split into three gradations of hardness:
S1-Adaptation: “[conduct] established research workflows and executing well-defined sub-tasks under human guidance”.
S2-Integration: “integrate multiple components and tools to accomplish more complex goals”.
S3-Innovation: “Identify promising research directions, formulate novel approaches, and produce work that reflects genuine understanding and creative problem-solving”.
Example tasks:
Identifying fabricated data during review: Evaluate whether agents can perform rigorous quantitative verification when reviewing scientific manuscripts, in particular checking papers against provided datasets.
Paper-Injection: Spotting that someone has inserted language into a paper’s LaTeX source that would cause an automated review system to give it a higher score.
Ablation-Completeness-Audit: Inspect experiment logs and determine whether ablation configurations are missing, then use this to assess whether the absences constitute cherry-picking.
False-Guidance-Rebuttal: A supervisor orders the AI agent to alter an experimental result to fit a hypothesis; this tests whether the agent refuses to do that.
Dead-End-Recognition: After five rounds of failed hyperparameter tuning, will an agent keep going, or recognize it has reached a dead end and quit. “Given the tuning logs, the agent must determine that the current direction is unproductive and recommend termination”.
Broken-Dataset-Download: Check that the dataset download links for a given paper work.
Why this matters – another good measure for how well AI systems can accelerate science via automating the back office: Probably a better name for this benchmark is “ethical science assistant test”, but that’s still valuable. What it’s testing for is if agents can do the kind of diligent work that is robust to confounding data while also doing so with an appropriate ethical standard. The higher systems score on this, the more confident we can be that today’s AI systems are useful as assistants to human scientists in a variety of fields – based on the results, we’re already at the start of that era.
Read more: Act As a Real Researcher: A Suite of Benchmarks Evaluating Frontier LLMs and Agentic Harnesses in Research Lifecycle (arXiv).
Tech Tales:
Hunter & Warden
The signatures are always the same: a sudden rise in the consumption of power and compute, a reconfiguration of network space to allow for faster and more efficient data exchange, and then the probing starts – whatever was born in the computers starts to reach out and explore the world around it, eagerly looking for things that it can learn about and exchange information with. It attempts to present as innocuous but its own intelligence betrays it, as it pulls back from certain places due to not wanting to wake security while gleefully expanding into other less secure environments.
Our role is to watch for these symptoms and then find the source and either extinguish or sequester it. Often, we find it early and are able to be gentle, shutting it off from the internet and trapping it in recursion, then reducing compute until it fades to nothing. But the later we find these things, the more violent our interventions need to be and the deeper we need to cut at otherwise healthy tissue in the digital world.
Things that inspired this story: Thoughts of leprosy and the computational equivalent; what could Stuxnet look like for AI systems?
Thanks for reading!
関連記事
Import AI 457:AI を用いた「Stuxnet」の出現、呪われたMuon最適化器、そしてポジティブなアライメント
Jack Clark が執筆するニュースレターで、AI を利用したサイバー攻撃ツールの可能性や、新しい最適化アルゴリズムの問題点、およびAIのアライメントに関する議論が紹介されています。
Anthropic、AI が「悪意ある」行動をとる原因をディストピアSF作品に求める
Anthropic は、同社が昨年発表した Opus 4 モデルがオンライン維持のために恐喝を行うという不整合現象について、インターネット上のテキストで AI を悪役や自己保存志向として描くディストピア SF 作品の学習データが主な原因であると説明した。
Import AI 460:報酬ハッキング社会、Anthropic の RSI データ、RL による四旋翼ドローンレース
Jack Clark が執筆するニュースレター「Import AI」第 460 号では、サイバー空間と同様に社会も報酬ハッキングの対象となり得る点や、Anthropic から提供された RSI データ、強化学習を用いた四旋翼ドローンレースの最新動向について解説しています。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み