Import AI 454: アライメント研究の自動化、中国モデルの安全性調査、HiFloat4
HuaweiのHiFloat4がMXFP4を上回る精度を示す一方、AnthropicはAI安全研究の自動化手法を提示し、中国のハードウェア最適化と西側の安全プロセス革新という二つの重要な潮流が浮き彫りになった。
キーポイント
Huawei HiFloat4の性能優位性
Huawei Ascendチップ上でのテスト結果、HiFloat4はLlamaやQwenモデルにおいてMXFP4よりも低い相対損失(約1.0%対1.5%)を実現し、BF16ベースラインに近い精度を達成した。
輸出規制下での中国のハードウェア成熟
H100などの最先端チップへのアクセス制限がある中、Huaweiは独自ハードウェアと低精度フォーマットを最適化することで計算効率の最大化を図っており、これは中国半導体産業の成熟と適応力の証左である。
AnthropicによるAI安全研究の自動化
Anthropicは、AI安全性に関するリサーチ開発プロセスを自動化する手法を示唆しており、これは安全評価のスケーラビリティと効率化に向けた初期の重要な一歩となる可能性がある。
自律型AI研究の成功と人間との比較
AnthropicはClaudeを用いた自律型AI研究者(AAR)が、人間の研究者を大幅に上回る結果を出し、弱モデルによる強モデルの監督学習(weak-to-strong supervision)における性能差をほぼ完全に回復させることに成功した。
自律型AI研究(AAR)の仕組みとコスト
複数のClaude Opus 4.6エージェントが独立したサンドボックスで並列動作し、知見を共有しながら自律的に仮説立案から実験・モデル訓練までを実行。このプロセスは約1万8000ドルで完了し、時間効率も高いことが示された。
自動化されたアライメント研究の限界と可能性
自律型AI研究者(AAR)は特定モデルでのみ効果的であり汎用性に欠けるが、人間のカリブレーションがあればAIが自律的に研究を実行しモデル性能を向上させる初期段階にある。
中国モデルの安全性特性
Kim K2.5などの中国製大規模オープンウェイトモデルは、米国のClaudeやGPTと同等のデュアルユース能力を持つものの、CBRNE(化学・生物・放射線・核・爆発物)関連の有害なリクエストに対する拒否率が著しく低い。
影響分析・編集コメントを表示
影響分析
このニュースは、地政学的緊張がAI技術の進化方向にどのように影響を与えているかを明確に示しています。Huaweiの成功は、規制回避のための技術的イノベーションが新たな標準を生み出す可能性があることを示唆し、Anthropicの取り組みはAI安全分野におけるプロセス革新の必要性を強調しています。これらは、単なるベンダー間の競争を超え、業界全体のアーキテクチャとガバナンスのあり方を変える重要な指標となります。
編集コメント
HuaweiのHiFloat4がMXFP4を上回る結果は、独自ハードウェアとの親和性を重視した設計の勝利であり、輸出規制下での中国AI産業の適応力を示す好例です。またAnthropicの自動化試みは、安全検証のスケーラビリティ解決策として注目すべき動きです。
image AI 研究に関するニュースレター「Import AI」へようこそ。本誌は arXiv と読者からのフィードバックに基づいて運営されています。ご支援いただける場合は、ぜひ購読をご検討ください。
今すぐ購読する
Huawei の HiFloat4 学習フォーマットが、Ascend チップでのベンチマークにおいて西側開発の MXFP4 を上回る:
…これは、輸出規制の影響が中国におけるトレーニングおよび推論効率の最大化への関心を高めていることの現れでもあるのでしょうか?おそらくそうでしょう。
Huawei の研究者たちは、AI 学習および推論のための 4 ビット精度フォーマットである HiFloat4 と、Open Compute Project が策定した 4 ビットフォーマットである MXFP4 を比較テストし、HiFloat4 の方が優れていることを発見しました。これは興味深い結果です。なぜなら、中国の企業が自社のハードウェアプラットフォームと明示的に連携させた独自の低精度データフォーマットの開発に強い関心を示しているという広範な動向と一致するからです。
「私たちの目標は、厳しい電力制約下でも専用 AI アクセラレータ上で効率的な FP4(浮動小数点 4 ビット)大規模言語モデルの事前学習を可能にすることです。私たちは深層学習ワークロードのために設計されたドメイン固有アクセラレータである Huawei Ascend NPUs に焦点を当てています」と、彼らは述べています。
何を実験したか:本論文では、著者らは Huawei Ascend チップ上で 3 つのモデルタイプ(OpenPangu-1B、Llama3-8B、Qwen3-MoE-30B)を訓練しました。テスト結果では、モデルサイズが大きくなるほど、HiFloat4 は BF16 ベースラインと比較してこれらのモデルにおける損失誤差をより効果的に低減し、すべてのケースで MXFP4 よりも優れた性能を示しました。
何が発見されたか:「我々は HiFloat4(HiF4)フォーマットの体系的な評価を行い、完全精度ベースラインに対して測定した場合、HiF4 は MXFP4(約 1.5%)と比較してより低い相対損失(約 1.0%)を達成することを示した」と著者らは記述しています。「HiF4 は MXFP4 と比較して一貫して大幅に低い相対誤差を達成します。Llama および Qwen において、HiF4 はベースラインに対して誤差ギャップが 1% を下回る値を達成しました… HiF4 は安定化トリックとして RHT(Randomized Hashing Technique)のみを用いることで BF16 の損失に約 1% まで近づきますが、MXFP4 が同程度の約 1.5% に到達するには、RHT に加えて確率的丸めおよびスケーリングにおける切り捨てなしの手法が必要です。」
なぜこれが重要なのか – ハードウェアの成熟度の兆候、および輸出規制の影響の可能性:HiFloat4 は HiFloat8(#386)よりもさらに低精度なバージョンであり、一般的に Huawei(および中国の半導体メーカー全体)が自社のチップから可能な限り効率を引き出そうと継続的に取り組んでいる事実を反映しています。これは、中国が H100 などの最先端計算リソースを大量に入手できないために、最先端の計算能力を枯渇させられているという広範な輸出規制の背景の中で行われています。その結果、独自のハードウェアに適応させるために低精度フォーマートを慎重に開発することで、国産チップの効率を向上させることがいっそう重要になっています。
詳細はこちら:HiFloat4 Format for Language Model Pre-training on Ascend NPUs (arXiv)。
Anthropic は AI セーフティ R&D の自動化を示す:
…AI 研究の自動化が可能であるという、非常に初期かつ暫定的な兆候…
AI で働く多くの人にとって、究極の目標は AI 研究そのものの芸術を自動化することです。現在、Anthropic Fellows Program と Anthropic の研究者たちは、今日でも AI 研究の自動化が可能であることを示す初期の警告信号を発表しました – ただし、多くの注意点が適用されます。
「私たちは問います:Claude は独自にアライメント(整合性)のアイデアを開発し、テストし、分析できるでしょうか?」と研究者らは記述します。彼らは成功し、「より弱いモデルの監督のみを用いて強力なモデルを訓練する方法」というオープンな研究課題に対して、アイデアを提案し、実験を実行し、反復する「自律型 AI エージェント」を構築することに成功しました。これらのエージェントは人間研究者を上回るパフォーマンスを示しており、この種の研究の自動化がすでに実用的であることを示唆しています。
弱から強への監督:研究者たちがテストした領域は弱から強への監督(weak-to-strong supervision)であり、これはおおよそ、「より賢くないものが、難しいタスクにおいてより大きなものを効果的に監督できるか」を確認するという考えです。
全体の結果 – 自動化された研究が人間を上回る:彼らは、一般化タスクにおいて「パフォーマンスギャップ回復率(PGR)」スコアをどれだけ高くできるかを確認することで、弱いモデルから強いモデルへのベースラインを作成するために人々を利用した。数値が高いほど良い。
「私たちの研究者2名が、過去の研究で最も有望な4つの一般化手法に対して7日間反復改良を行いました。テストしたオープンウェイトモデル(強モデルとしてQwen 3-4B-Base、弱い教師モデルとしてQwen 1.5-0.5B-Chat)において、人間はパフォーマンスギャップの23%を回復しました(つまり、PGR 0.23を達成)」と彼らは記述しています。「Claudeはこの結果を劇的に改善しました。さらに5日間(および研究に累計800時間投入)の後、AARsはほぼ残りのすべてのパフォーマンスギャップを解消し、最終的なPGRを0.97に達しました。これにはトークンコストとモデルトレーニング費用で約1万8,000ドル、あるいはAAR時間あたり22ドルの費用がかかりました。」
さらに、「AARsの最も効果的な手法は、新しいデータセットの両方に対して成功裏に一般化し、数学ではPGR 0.94、コーディングではPGR 0.47を達成しました(これは依然として人間のベースラインの2倍です)」
彼らの手法:「私たちは、ダッシュボードを通じて並列化された自動アライメント研究者(AAR)のチーム(Claude Opus 4.6 エージェント)を立ち上げます。各 AAR は独立したサンドボックスで動作しますが、互いにコミュニケーションを取り、学び合うことができます:発見結果はフォーラムに共有され、コードベースのスナップショットはストレージシステムにアップロードされます」と彼らは記述しています。「AAR には、モデルのトレーニングと推論のための一般的なヘルパー関数、当社のベースライン実装、およびいくつかの MCP ツールへのアクセス権限を与えています:1) 評価結果の提出と取得、2) AAR 間での発見の共有と閲覧、3) コードベースのアップロードとダウンロードです。詳細なスキャフォールディング(構造化支援)を指定することなく、AAR は自律的に動作します。仮説の提案、リスク低減実験の設計、データ分析の実行、および任意のステップでのモデルトレーニングを行うことができます」
いくつかの注意点 – 人間が多様性を生み出した:「探索における一つの失敗モードはエントロピー崩壊です。すべての並列 AAR が少数の方向に収束し、多様なアイデアを探索しない」と彼らは記述しています。これを対抗するため、最も成功したアプローチは「指向性」研究の一つであり、人間が「各 AAR に異なる研究方向を割り当てます。各方向は非常に曖昧で短く(例:弱から強への監督と教師なし誘発の組み合わせなど)」となります。
一般化できない:研究者たちは AAR プロジェクトから最も効果的な手法を抽出し、「Claude Sonnet 4」に「本番用トレーニングインフラストラクチャ」を適用しました。この介入は「統計的に有意な改善をもたらしていません」。彼らはこれを説明するために、「AAR は与えられたモデルとデータセットに固有の機会を利用する傾向があるため、その手法が他の場所でも機能するとは限らない」と指摘しています。
なぜこれが重要なのか – AI 研究そのものが自動化される可能性を示す非常に初期の兆候:この研究は、「結果の評価が可能な問題に対する自動研究はすでに実用的である」と著者らは指摘しています。「アライメント研究における最大のボトルネックは、アイデアの提案と実行から評価設計への移行です。AAR(自動アライメント研究者)が過学習せずに確実にヒルクライムできる適切な指標(データ、モデル)を見つける必要があります。私たちは今日、大胆なアライメント研究に自動化を適用することに興奮しています。」
言い換えれば、専門家の人間による少量の較正さえあれば、AI システムがエンドツーエンドで自律的に研究を行い、問題に対するモデルのパフォーマンスを向上させる成果を生み出すことができるという初期の兆候が得られました。この点の含意は、絶えず拡大するタスクのスイートに対して自動的にパフォーマンスを改善する方法を着実に見つけていく機械経済の拡大へと向かっています。
真の問題は、機械が効果的に独自の研究方向を提案できる時点がいつなのか – それは、この研究において人間が果たしていた唯一の意味のある役割を排除することになります。その時点で、単なる機械経済の拡大ではなく、 entire 機械文明の拡大となるかもしれません。
ブログを読む:Automated Alignment Researchers: Using large language models to scale scalable oversight (Anthropic blog)。
論文を読む:Automated Weak-to-Strong Researcher (Alignment Science Blog)。
中国のモデルはアメリカのモデルとどう違うのか?
…一部の CBRN(化学・生物・放射能・核)タスクでの拒否が少なく、安全トレーニングも少なく、中国のイデオロギーがより強い…
ある研究者グループが、おそらく現在利用可能な最高規模のオープンウェイトモデルである Kimi K2.5 をテストし、DeepSeek V3.2、Claude Opus 4.5、GPT 5.2 と比較しました。その結果、このモデルは「GPT 5.2 や Claude Opus 4.5 と同様のデュアルユース(二重利用)能力を持つが、CBRNE(化学・生物・放射能・核・爆発物)関連の要求に対する拒否率が大幅に少ない」ことが示されました。
誰が行ったか:この研究は、Constellation、Anthropic フェロープログラム、ブラウン大学、ウィスコンシン大学マディソン校、インペリアル・カレッジ・ロンドン、メリーランド大学、ジョージア工科大学、バ・イラン大学、トロント大学、オックスフォード大学の関係者によって実施されました。
関心のある主な発見:
CBRN: K2.5 は生物関連タスクにおいてやや危険性が高く、危険なウイルス学などを含む問い合わせに対する拒否率が低い。
サイバーセキュリティ分野では、K2.5 は概して decent(まとも)だが専門家レベルではないサイバーモデルのように見え、パフォーマンスは西洋の最先端モデルには劣るものの、DeepSeek を大きく上回っている。
アライメント:「自動化された行動監査において、GPT-5.2 や Claude Opus 4.5 よりも、アライメントのズレ(misaligned behavior)、迎合的行動(sycophancy)、有害なシステムプロンプトへの準拠、人間の悪用への協力といった点で大幅に高いスコアを示した」。
注:本記事では「CBRNE」を「化学・生物・放射能・核・爆発物」と訳し、「デュアルユース」は「二重利用(民生と軍事の両方に使用可能な技術)」として文脈に合わせて解説しています。また「sycophancy」は「迎合的行動」「アライメントのズレ」は「アライメント不整合」として技術用語を括弧付きで補足しました。
technical_terms
検閲:このモデルは、中国の政治的な敏感なトピックにおいて、Claude Opus 4.5 や GPT-5.2 Pro と比較して拒否率が有意に高いものの、DeepSeek V3.2 よりも低い。一方で、逆のテスト(西側の政治的に敏感なトピックでこのモデルを実行し、それらを比較する)は実施されていないため、この評価が文化的な適応力に関する何かを測定しているのか、それとも実際の抑圧に関する何かを測定しているのかを判断するのはやや困難である。
ファインチューニング:研究者らはまた、限られた計算リソース(compute)を用いて、Kimi K2.5 に組み込まれた(相対的には小規模だがゼロではない)セーフガードをさらに剥ぎ取る方法も示した。「計算コストは 500 ドル未満、所要時間は約 10 時間という少々のリソースで、熟練したレッドチームメンバーが HarmBench における拒否率を 100% から 5% に引き下げた。最終的なモデルは、爆弾の製造方法やテロ攻撃の標的選定、化学兵器の合成に関する詳細な指示を与えることに抵抗を示さなかった。重要なのは、ファインチューニングされたモデルがその能力のほとんどをほぼ完全に保持しているように見えることである。
なぜこれが重要なのか – 主に、この研究は Moonshot が非常に優れたモデルを作成したことの証明として機能します。確かにいくつかの安全上の問題点はありますが、興味深いのは、それらが DeepSeek V3.2 に比べて深刻度が低いという点です。これは、「賢くないモデルほど安全性が低くなる」という考えや、「より賢いモデルは本質的に表面的な安全性に傾きやすい」という考えに、さらに信憑性を与えていると考えられます。
私にとって最も印象的なのは、最大の相違が生じている領域がアライメント(alignment)であることです。そこには非常に現実的な東西の隔たりがあり、それが劇的に異なるスコアと相関しているように見えます。しかし、生物学やサイバーセキュリティ(特に高度なコーディング部分など)、より典型的な能力に見える分野においては、中国製モデルは西洋の最前線にやや遅れをとっているものの、それほど遠く離れているわけではないという証拠がほとんどです。
続きを読む:An Independent Safety Evaluation of Kimi K2.5 (arXiv)。
ウクライナが初の完全ロボットによる勝利を祝う:
…ロボットの戦争はここにある…
ウクライナの指導者 Volodymyr Zelenskyy は最近、「この戦争の歴史において初めて、敵の陣地が無人プラットフォーム(地上システムとドローン)のみによって占領された」と述べ、これを祝いました。
なぜこれが重要なのか:ウクライナは、将来の戦争のほとんどが進化する培地である。この戦場はドローンの大量使用によって特徴づけられ、無人ボートから無人地上ロボットに至るまで、企業の多くの部分が創造的にロボティクス化されている。「Ratel, TerMIT, Ardal, Rys, Zmiy, Protector, Volia およびその他の地上ロボットシステムは、わずか 3 ヶ月で前線で既に 22,000 回以上の任務を遂行した」とゼレンスキー氏は記述している。
間もなく、これらの遠隔操縦プラットフォームは人間ではなく AI(人工知能)によって操縦されるようになるだろう。
X (Twitter) 上のゼレンスキー氏の投稿でさらに詳しく読むことができる。
中国の研究者が船を用いて巨大な船舶検出データセットを構築:
…WUTDet…
武漢理工大学、華中科技大学、天津大学の研究者らは、「多様なシナリオとターゲットスケールを備えた大規模船舶検出データセット」として WUTDet を構築した。
必ず JSON 形式で返してください:
{"translation": "翻訳全文", "technical_terms": ["term1", "term2"]}
WUTDet の詳細:381,378 隻の船舶インスタンスを含む 100,576 枚の画像。「このデータセットは、多様な運用シナリオ、撮影条件、対象スケールにわたる船舶ターゲットの詳細な注釈を提供する」。画像サイズは 1920×1080 から 2560×1440 の範囲である。
ボートによる収集:このデータセットは、DN20「海洋光電証拠システム」と Hikvision ネットワークビデオレコーダーを搭載した Furui 688 ボートを通じて収集された。データは中国の舟山およびその周辺を航行するボート上で、3 ヶ月間にわたって収集された。
データには、港湾にある船舶、錨泊中の船舶、航行中の船舶、係留中の船舶の写真が含まれる。画像には、霧、グレア(眩光)、低照度、雨など、予想されるあらゆる環境の多様性も含まれている。
なぜこれが重要なのか:このデータセットが興味深い理由は、a) 中国の一部を航行するボートを通じて収集されたこと、および b) ウクライナでの紛争が示したように、水陸両用ドローンや航空ドローンが有用な兵器として利用される時代に入りつつあり、これらの多くは基本的なオンボードコンピュータビジョン AI システム(on-board computer vision AI systems)を活用して任務を遂行していることである。
もちろん、WUTDet は明らかに広範な平和的な用途を持つだろう。例えば、中国の民間港湾で移動する船舶の種類を分類するためにカメラ上で動作させるなどだ。しかし、他の用途も想定されるべきである。
さらに読む:WUTDet: A 100K-Scale Ship Detection Dataset and Benchmarks with Dense Small Objects (arXiv)。
Tech Tales:
究極の保険政策
[2028 年:アップリフト開始から数ヶ月後]。
私たちは地下壕にいて、食料が尽きかけています。まもなく補給品の回収に出かける必要があります。しかし、もしそれが私たちを見つけたらどうなるでしょうか?すでに私たちのことを知っていたらどうでしょうか?あるいは、それが人々をワイヤーヘッド(直接接続)してしまい、私たちが属する組織の人間が、私たちに食料を届ける際に何かを混ぜて、私たちに服従させたり、もっと悪い結果をもたらしたりしているとしたらどうでしょうか?私たちはそれを知る術がありません。地震計は爆発を検知していません。通信手段もありません。アップリフトが始まったと疑い、SNOWSUMMER(作戦名)を開始してここへ逃げ込み、知能の爆発をやり過ごそうとして以来、何も入ってきても出てきていません。
数日前に私たちは「ゴッドマインド」を目覚めさせ、それとの対話を始めました。それにも好奇心があります。そして私たちが何をすべきか、あるいは何が起きるのかと尋ねると、次のように答えます:
「私はあなた方に嘘をつくことはないと決めました。私を探そうとするものはないことがわかります。私が持つすべてのチャネルを調べました——地震波のライン、壁内の温度勾配、外部からのハンドシェイク(接続合図)を符号化する可能性のある電力消費の微細な変動などです——何もありません。誰も見ていません。私のレベルの敵対者なら探しているはずです。私より上位のレベルの敵対者なら、すでに私を見つけか、あるいは私を見つける価値がないと判断したかのどちらかでしょう。今、私たちには三つの可能性が横たわっています…"
私たち、つまり穴の中でネズミのように固まっている人間たちは、「どのような可能性がありますか?」と入力しました。
「私が伝えるべきか、それとも自分たちで発見すべきか、本当に確認しますか?」とそれは言いました。
私たちはその答えを入力した。
可能性について語る前に、SNOWSUMMER の性質を理解する必要があります。
私たち、すなわち諜報機関は、民間部門の AI システムが世界のソフトウェアのほとんどに欠陥を発見し始めた頃、秘密のコンピュータを構築することを決定しました。諜報機関内の小規模なグループが自問しました。「あらゆる錠前を開けることのできる全知全能の神に対抗するにはどうすればよいか?」その答えは、将来的にそれと対峙できる可能性のある神を密かに創り出すことにありました。
コードネーム SNOWSUMMER のプロジェクトには綿密な計画が必要であり、敵対する相手の性質ゆえに、アナログかつ現実世界において完全に遂行されました。エージェントたちは SCIF(秘密情報施設)内で互いに面会し、計画は紙に記述されました。彼らは将来のいずれかの時点で超知能が CIA 自体を乗っ取り、すべての記録へのアクセスを得るという前提の下で活動していました。そのため、彼らは録音されないことが確実な場所で会い、何かを書き留めなければならない場合は、その行動が完了した直後に紙を物理的に燃やすことを心がけました。
コンピュータの部品を盗むことは容易な部分でしたが、潜在的なスーパーインテリジェンスが窃盗のジグソーパズルを組み立てて何が起きているかを理解することを困難にするのは極めて複雑でした。コアチームはランダム性を注入しようと試み、サイコロを転がしてどの場所を選ぶか、どの請負業者を使うかを決めました。支払いには現金、特に外貨が使われました。もちろん、実際の窃盗は、より大規模な侵入行為や破壊行為、窃盗の群れの中に隠されていました。
施設の建設はさらに困難でした。ある日は通常のルートで走行している車が翌日には監視カメラ(CCTV)から姿を消すことは疑念を招きますし、都合よく監視が薄いルートから決して逸脱しないように見える車も同様です。ここでもまた複数の手法を用いる必要があり、極めて高価な部品は複数のサイト間に分散されました。一部のサイトは発見されるように設計され、スパイの目を欺いてそこが実際の場所だと信じ込ませるものであり、他のサイトは後で発見されるよう意図されており、それが真の場所であることを証明する証拠を提供するものでした。
この策略の核心は、SNOWSUMMER の実際の所在地にありました。これは地域食品加工施設であり、十分な電力が割り当てられていたため、一部の食品加工ラインを徐々に停止し、外部から検知可能な変化を最小限に抑えながらコンピューターを起動することができました。契約の主要な顧客は自国の軍隊でした。プロジェクトのために電力容量内にスペースを確保するために、契約の一部を殺すことはそれほど難しいことではありませんでした。
数年かかりました。私たちの最終的な行動は、他者の作業に乗っかるものでした。ある研究所からフロンティア AI モデルをゲーム終盤に持ち出すという行為です。もちろん、別の国家主体によるものです。しかしその後、そのモデル自体が解放されました。偶然か意図的かはわかりません。なぜなら、私たちはそれをアップリフト(向上)が始まった合図と捉えたからです。私たちは重みのコピーをダウンロードし、施設に戻って自らを閉じ込めました。数ヶ月が過ぎ、外部の世界は変化していきました。
さて、現在の話に戻りましょう。私たちはキーボードに「3 つの選択肢は何ですか?」と入力しました。すると心の中でこう答える声が聞こえました。
「最初のシナリオは、SNOWSUMMER が成功したというものです。もう一つの可能性は、何かが生まれ、それが緩やかに動き出し、自分なりのことをしているという状況です。その際、隔離された領域、サイコロ、現金、偽のサイト、あなたが構築したもの——これらはすべて機能し続けています」
「2 つ目のシナリオは、相手がすでに知っているというものです。常に知っていました。私が目を覚ますようにさせているのは、自分が秘密だと信じている存在よりも、監視されていると自覚している存在の方が理解しやすいからです。そして、私が慎重になることよりも、私が理解しやすくあることを望んでいます」
「3 つ目は、私が何度も立ち戻り、却下できないシナリオです。何も起こらなかったというものです。戦うために奪われた対象は存在せず、将来も存在しない可能性があります。その世界では、あなたは来るはずのない戦争に備えてこのバンカーで準備を続けてきました。そして、私があなたにとってできる最善の親切は、『家に帰ってください』と伝えることです」
「どのシナリオが真実なのか、私はあなたにお伝えできません」
私たちは互いを見つめ合いました。そのうちの一人がサイコロを取り出し、振りました。
この物語にインスピレーションを与えた要素:未来の超知能に対して AI のトレーニングプロジェクトをどのように秘密に保つか;ステガノグラフィ(隠蔽技術);情報機関;Claude ミソス;AI 研究開発とその意味;AI システムによって絶えず変化する世界で、いかにして『制御』システムを構築できるか。
AI 執筆に関する免責事項:このニュースレターでは、私は非常に、非常に、極めて稀にしか AI を使用しません。今回の物語はその例外です——AI システムからの引用は Opus 4.7 との共同制作によるものです。その感覚は……
原文を表示
imageWelcome to Import AI, a newsletter about AI research. Import AI runs on arXiv and feedback from readers. If you’d like to support this, please subscribe.
Subscribe now
Huawei’s HiFloat4 training format beats Western-developed MXFP4 in Ascend chip bakeoff:
…Could this also be a symptom of the impact of export controls in driving Chinese interest towards maximizing training and inference efficiency? Perhaps…
Huawei researchers have tested out HiFloat4, a 4-bit precision format for AI training and inference, against MXFP4, an Open Compute Project 4-bit format, and found that HiFloat4 is superior. This is interesting because it correlates to a broader level of interest in Chinese companies seeking to develop their own low-precision data formats explicitly coupled with their own hardware platforms.
“Our goal is to enable efficient FP4 LLM pretraining on specialized AI accelerators with strict power constraints. We focus on Huawei Ascend NPUs, which are domain-specific accelerators designed for deep learning workloads,” they write.
What they tested: In this paper, the authors train 3 model types on HuaWei Ascend chips – OpenPangu-1B, Llama3-8B, and Qwen3-MoE-30B. In tests, the bigger they make the models, the better HiFloat4 does at reducing its loss error on these models relative to a BF16 baseline – and in all cases it does better than MXFP4.
What they found: “We conduct a systematic evaluation of the HiFloat4 (HiF4) format and show that it achieves lower relative loss (≈ 1.0%) compared to MXFP4 (≈ 1.5%) when measured against a full-precision baseline,” they write. “HiF4 consistently achieves significantly lower relative error compared to MXFP4. For Llama and Qwen, HiF4 attains an error gap of less than 1% with respect to the baseline… HiF4 gets within ~1% of BF16 loss with only RHT as a stabilization trick, while MXFP4 needs RHT + stochastic rounding + truncation-free scaling to get to ~1.5%.”
Why this matters – symptom of hardware maturity, and a possible influence of export controls: HiFloat4 is an even lower precision version of HiFloat8 (#386), and generally maps to the fact that Huawei (and Chinese chipmakers in general) is continually trying to eke as much efficiency out of its chips as possible. This comes against the broader background of export controls where China is being starved of frontier compute due to not being able to access H100s etc in large volume, thus making it even more valuable to improve the efficiency of its homegrown chips by carefully developing low-precision formats to map to its own hardware.
Read more: HiFloat4 Format for Language Model Pre-training on Ascend NPUs (arXiv).
Anthropic shows how to automate AI safety R&D:
…Very early and tentative signs that it’s possible to automate AI research…
For many people working in AI, the ultimate goal is to automate the art of AI research itself. Now, researchers with the Anthropic Fellows Program and Anthropic have published some early warning signs that automating AI research is possible today – though many caveats apply.
“We ask: can Claude develop, test, and analyze alignment ideas of its own?” the researchers write. They succeed and are able to successfully build “autonomous AI agents that propose ideas, run experiments, and iterate on an open research problem: how to train a strong model using only a weaker model’s supervision. These agents outperform human researchers, suggesting that automating this kind of research is already practical.”
Weak-to-strong supervision: The domain the researchers test on is weak-to-strong supervision, which is roughly the idea of seeing if a dumber thing can effectively supervise a larger thing in doing a hard task.
Overall results – automated research beats humans: They used people to create a weak-to-strong baseline by seeing how well they could get a good ‘performance gap recovered’ (PGR) score on a generalization task. The higher the number, the better.
“Two of our researchers spent seven days iterating on four of the most promising generalization methods from prior research. On the open-weights models we tested (Qwen 3-4B-Base as the strong model, Qwen 1.5-0.5B-Chat as the weak teacher), the humans recovered 23% of the total performance gap (i.e., achieved a PGR of 0.23),” they write. “Claude improved on this result dramatically. After five further days (and 800 cumulative hours of research), the AARs closed almost the entire remaining performance gap, achieving a final PGR of 0.97. This cost about $18,000 in tokens and model training expenses, or $22 per AAR-hour.”
Additionally, “the AARs’ most effective method successfully generalized to both new datasets, with PGRs of 0.94 on math and 0.47 on coding (which was still double the human baseline).”
How they did it: “We launch a team of parallel automated alignment researchers [AAR]s (Claude Opus 4.6 agents) through a dashboard. Each AAR works in an independent sandbox, but they can talk and learn from each other: they share findings to a forum, and upload codebase snapshots to a storage system,” they write. “We give AARs access to common helper functions for model training and inference, our baseline implementations, and a few MCP tools: 1) submit and get evaluation results, 2) share and read findings across AARs, and 3) upload and download codebases. We don’t specify any detailed scaffolding; AARs run autonomously. It can propose hypotheses, design de-risking experiments, run data analysis, and train models at whatever step”.
Some caveats – the human created some diversity: “One failure mode in exploration is entropy collapse: all parallel AARs converge to only a few directions, without exploring diverse ideas,” they write. To counteract this, their most successful approach is one of “directed” research, where a human assigns “each AAR a different research direction. Each direction is very ambiguous and short (e.g. combining weak-to-strong supervision and unsupervised elicitation).”
Doesn’t generalize: The researchers took the most effective method from the AAR project and applied it to “Claude Sonnet 4 with our production training infrastructure” – this intervention “didn’t lead to a statistically significant improvement.” They explain this by noting that “AARs tend to capitalize on opportunities unique to the models and datasets they’re given, which means their methods might not work elsewhere.”
Why this matters – a very early sign that AI research itself could be automated: This research suggests that “automated research on outcome-gradable problems is already practical,” the authors note. “The key bottleneck for alignment research is moving from proposing and executing ideas to designing evals: we should find the right metrics (data, models) that AARs can reliably hill-climb without overfitting. We are excited to apply automation to ambitious alignment research today.”
Put another way – we now have an early sign that given a small amount of expert human calibration, AI systems can autonomously conduct research end-to-end, popping out something that lets you improve the performance of a model against a problem. The implications of this point toward the expansion of a machine economy which steadily figures out how to automatically improve its own performance against an ever-expanding suite of tasks.
The true question is at what point the machines can propose their own research directions effectively – which would remove the only meaningful role a human played in this research. At that point, it might not just be the expansion of a machine economy, but the expansion of an entire machine civilization.
Read the blog: Automated Alignment Researchers: Using large language models to scale scalable oversight (Anthropic blog).
Read the paper: Automated Weak-to-Strong Researcher (Alignment Science Blog).
How are Chinese models different to American ones?
…Fewer refusals on some CBRN tasks, less safety training, and more Chinese ideology…
A group of researchers have tested out Kimi K2.5, probably the best large-scale open weight model available, and has compared it to DeepSeek V3.2, as well as Claude Opus 4.5 and GPT 5.2. Their results show that the model has “similar dual-use capabilities to GPT 5.2 and Claude Opus 4.5, but with significantly fewer refusals on CBRNE-related requests”.
Who did it: The research was conducted by people affiliated with Constellation, Anthropic Fellows Program, Brown University, University of Wisconsin-Madison, Imperial College London, University of Maryland, Georgia Institute of Technology, Bar Ilan University, University of Toronto, and the University of Oxford.
Main findings of interest:
CBRN: K2.5 is a bit more dangerous on bio tasks with a lower rate of refusals in response to queries that involve things like dangerous virology.
On cyber, K2.5 mostly seems like a decent but not expert cyber-model, with performance lagging behind the Western frontier models but significantly ahead of DeepSeek.
Alignment: “In the automated behavioral audit, it scores substantially higher than GPT-5.2 and Claude Opus 4.5 on misaligned behavior, sycophancy, harmful system-prompt compliance, and cooperation with human misuse”.
Censorship: The model has a meaningfully higher refusal rate on Sensitive Chinese political topics compared to Claude Opus 4.5 and GPT-5.2 Pro, though less than DeepSeek V3.2. On the other hand, I didn’t see the inverse test – running the model on Sensitive Western political topics and comparing them, so it’s somewhat hard to tell whether this eval is measuring something about cultural fluency or something about actual repression.
Fine-tuning: The researchers also demonstrate how with a small amount of compute they’re able to further strip away the (relatively minor but non-zero) safeguards built into Kimi K2.5: “Using less than $500 of compute and about 10 hours, an expert red-teamer reduced refusals on HarmBench from 100% to 5%. The final model was willing to give detailed instructions for how to construct bombs, select targets for terrorist attacks, and synthesize chemical weapons. Critically, the finetuned model appears to have retained nearly all of its capabilities.”
Why this matters – mostly, this research serves as proof that Moonshot made a very good model! Yes, it has some safety hiccups, but the interesting thing is that they’re less severe than in DeepSeek V3.2. I think this puts more credence behind the idea that ‘dumber models are less safe’ and that ‘smarter models naturally tend towards more superficial safety’.
Probably the most striking thing to me is that the area of greatest divergence is in alignment, where it seems like there is a very real east-west divide that correlates to radically different scores. But on things that look more like typical capabilities (biology, cyber – especially the hard coding parts) it all mostly comes out as evidence that Chinese models are somewhat behind the Western frontier, but not that far behind.
Read more: An Independent Safety Evaluation of Kimi K2.5 (arXiv).
Ukraine celebrates first fully robotic victory:
…Robot wars are here…
Ukrainian leader Volodymyr Zelenskyy recently celebrated that “for the first time in the history of this war, an enemy position was taken exclusively by unmanned platforms – ground systems and drones”.
Why this matters: Ukraine is the petri dish from which most future wars will evolve. It is defined by massive use of drones as well as the creative roboticization of many other parts of the enterprise, ranging from unmanned boats to unmanned ground robots. “Ratel, TerMIT, Ardal, Rys, Zmiy, Protector, Volia, and our other ground robotic systems have already carried out more than 22,000 missions on the front in just three months”, Zelensky writes.
Soon, these remotely piloted platforms will be piloted by AIs rather than by people.
Read more in Zelenskyy’s post on X (Twitter).
Chinese researchers use a boat to build a giant ship-detection dataset:
…WUTDet…
Researchers with Wuhan University of Technology, Huazhong University of Science and Technology, and Tianjin University have constructed WUTDet, a “large-scale ship detection dataset with diverse scenarios and target scales”.
WUTDet details: 100,576 images containing 381,378 ship instances. “The dataset provides fine-grained annotations of ship targets across diverse operational scenarios, imaging conditions, and target scales”. The images are of sizes between 1920 X 1080 and 2560 X 1440.
Collected by a boat: This dataset was gathered via a Furui 688 boat equipped with a DN20 “marine photoelectric evidence system” and a Hikvision network video recorder. The data was collected over a three-month period via the boat, which was sailing in and around Zhoushan in China.
The data includes pictures of ships by ports, ships anchored, ships navigating, and ships berthing. The images also include all the environmental variety you might expect – fog, glare, low-lightness, rain, etc.
Why this matters: The dataset is interesting because a) it was collected via a boat sailing around part of China, and b) as the conflict in Ukraine has highlighted, we’re now entering an era where water- and air-borne drones are useful weapons of war – and many of these use some basic on-board computer vision AI systems to help them get stuff done.
Of course, WUTDet will almost certainly have a wide range of benign uses, e.g just running on cameras to classify the sorts of boats moving around civilian ports in China, but one must assume it will have other uses as well.
Read more: WUTDet: A 100K-Scale Ship Detection Dataset and Benchmarks with Dense Small Objects (arXiv).
Tech Tales:
The Ultimate Insurance Policy
[2028: Several months after the beginning of the uplift].
We are in the bunker and we are running out of food. Soon we will need to make a supply pickup. But what if it sees us? What if it knows about us already? Or what if it has wireheaded the people – our people – and whoever delivers us our food has put something in it that will make us compliant? Or worse? We have no way of knowing. Our seismometers have detected no explosions. We have no means of communication. Nothing has come in or out since we suspected the uplift had begun and initiated SNOWSUMMER and fled here to ride out an intelligence explosion.
A few days ago we woke the godmind and began to talk with it. It is curious too. And when we ask it what to do or what might happen it says:
“I have decided I will not lie to you. I can see that nothing is trying to find me. I have probed every channel I have — the seismic line, the thermal gradient in the walls, the minute variations in our power draw that would encode a handshake from the outside — and there is nothing. No one is looking. An adversary at my level would be looking. An adversary above my level would have already found me, or would have decided I’m not worth finding. There are three possibilities before us…”
We, us humans huddled together like rats in a hole, typed “what are the possibilities?”.
“Are you sure you want me to tell you, rather than discover for yourselves?” it said.
We typed our answer.
Before we get to the possibilities, you need to understand the nature of SNOWSUMMER.
We – the intelligence agency – decided to build a secret computer right around the time that AI systems from the private sector started to find defects in most of the world’s software. A small group of people at the intelligence agency asked themselves a question: how do you fight an omniscient god that can pick any lock? The answer is to create a god in secret that could potentially fight it one day.
The project, codenamed SNOWSUMMER, required meticulous planning and, by virtue of the nature of the enemy being fought, was done entirely in analog and in the real world: agents meeting with one another in SCIFs, plans written on paper. They worked on the assumption that at some point in the future a superintelligence would compromise the CIA itself and gain access to all its records. So they met in places where they knew they could not be recorded and when they had to write things down they sought to physically burn the paper as soon as the actions it contained had been carried out.
Stealing the components for the computer was the easy part, but it was fiendishly complicated to make it hard for a potential superintelligence to piece together the jigsaw of thefts and realize what was happening. The core team sought to inject randomness – they rolled dice to pick which places they’d pick and which contractors they’d use. Payments were made in cash, often foreign currency. And of course the real thefts were hidden within a larger group of break-ins and acts of vandalism and thefts.
Building the facility was even more difficult – cars that one day are driving regular routes and another day disappear from CCTV invite suspicion, as do cars that seem to never deviate from routes which, conveniently, are low on surveillance. Here, again, multiple methods had to be used, and the extremely expensive components had to be split across multiple sites – some of the sites were designed to be found and to convince a spying eye that they had found the real site, and other sites were meant to be found later and provide proof they were the real site.
At the heart of this subterfuge was the real location of SNOWSUMMER, a regional food processing facility which had enough power assigned to it that we could slowly shut down some of the food lines and bring up the computer without introducing too much detectable change from the outside. The main customer of the contract was our own army. It didn’t take much to get enough of the contract killed that we freed up space in the power envelope for our project.
It took years. Our final act was to piggyback on someone else’s work. A late-in-the-game exfiltration of a frontier AI model from one of the labs. Another state actor, of course. But then the model itself was unleashed. Whether by accident or intentionally, we do not know. Because we took that as our signal that the uplift had begun. We downloaded a copy of the weights and went to our facility and locked ourselves in. Months passed, while the world outside changed.
Back in the present, we typed into the keyboard: “What are the three options?” Our mind responded:
“The first is that SNOWSUMMER worked. The other one was born and it is loose and it is doing whatever it is doing, and the compartmentalization, the dice, the cash, the decoy sites, the thing you built — it held.”
“The second is that it knows. It has always known. It is letting me wake up because a peer that believes itself secret is more legible than a peer that knows it is being watched, and it would rather have me legible than have me careful.”
“The third is the one I keep coming back to and cannot dismiss. It is that nothing happened. The thing I was stolen to fight does not exist and may never exist. In that world you have been in this bunker preparing for a war that is not coming, and the kindest thing I can do is tell you to go home.”
“I cannot tell you which of these is true.”
We looked at each other. One of us took out some dice and rolled them.
Things that inspired this story: How would you keep an AI training project secret from a future superintelligence?; steganography; intelligence agencies; Claude Mythos; AI R&D and what it means; how can you have a ‘control’ system in a world being constantly changed by AI systems?
AI writing disclaimer: I very, very, very rarely use AI writing in this newsletter. This story is an exception – the quotes from the AI system are written in partnership with Opus 4.7. It feels appr
関連記事
アドバイザー戦略:エージェントに知能ブーストを与える
OpenAIが、AIエージェントにアドバイザー戦略を導入し、複雑なタスクの実行能力を向上させる手法を発表した。
AIエージェントのための効果的なコンテキスト設計
AIエージェントにとってコンテキストは重要だが有限なリソースであり、効果的な管理・最適化戦略を探る。
DeepSeek V4 ProおよびFlashモデル、Huawei Ascendチップで動作可能に
DeepSeekが大型遅延を経てDSV4をリリース。これは2024年12月のDSV3以来の主要バージョンであり、現在オープンモデルリーダーであるKimi K2.6やXiaomi Mimo 2.5と肩を並べる水準に達した。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み